文章预览
本文将根据 Adel Javanmard, Simeng Shao 和 Jacob Bien 在JRSSB上发表的《Prediction Sets for High-Dimensional Mixture of Experts Models》为大家简单介绍一些专家混合模型架构以及他们本篇论文的工作。 专家混合模型(MoE) 最近,MoE 模型因被应用于 GPT-4 和 DeepSeekMoE 等新一代大语言模型中,迅速成为开放 AI 社区讨论的焦点。由于本文也涉及到了 MoE 模型,所以我们在这里先介绍一些常见的 MoE 架构。MoE 模型是一种神经网络架构,其核心思想是通过一组专家网络(Experts)和一个门控网络(Gating Network),为每个输入样本动态分配专家的权重,从而整合各个专家的输出,最终实现计算效率和模型性能的显著提升。 大多数 MoE 论文都引用的最早的一篇相关文献是 Robert A. Jacobs 和 Michael I. Jordan 在1991的文章 Adaptive Mixtures of Local Experts,在这篇文章中,作者首先介绍了一种新的监督
………………………………