专栏名称: 郭老师统计小课堂
介绍统计学课程的知识,方法和思想
目录
今天看啥  ›  专栏  ›  郭老师统计小课堂

高维专家混合模型的预测集

郭老师统计小课堂  · 公众号  ·  · 2025-01-17 22:20
    

文章预览

本文将根据 Adel Javanmard, Simeng Shao 和 Jacob Bien 在JRSSB上发表的《Prediction Sets for High-Dimensional Mixture of Experts Models》为大家简单介绍一些专家混合模型架构以及他们本篇论文的工作。 专家混合模型(MoE) 最近,MoE 模型因被应用于 GPT-4 和 DeepSeekMoE 等新一代大语言模型中,迅速成为开放 AI 社区讨论的焦点。由于本文也涉及到了 MoE 模型,所以我们在这里先介绍一些常见的 MoE 架构。MoE 模型是一种神经网络架构,其核心思想是通过一组专家网络(Experts)和一个门控网络(Gating Network),为每个输入样本动态分配专家的权重,从而整合各个专家的输出,最终实现计算效率和模型性能的显著提升。 大多数 MoE 论文都引用的最早的一篇相关文献是 Robert A. Jacobs 和 Michael I. Jordan 在1991的文章 Adaptive Mixtures of Local Experts,在这篇文章中,作者首先介绍了一种新的监督 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览