专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
今天看啥  ›  专栏  ›  PaperWeekly

微软联合清华提出多头混合专家机制,大幅提升专家激活率

PaperWeekly  · 公众号  · 科研  · 2024-05-19 18:00
    

文章预览

©作者 |  Panda W 来源 |  机器之心 混合专家(MoE)是个好方法,支持着现在一些非常优秀的大模型,比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。 稀疏混合专家(SMoE)可在不显著增加训练和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是一个 SMoE 模型,其包含 8 个专家(共 7B 参数),而其表现却可以超过或比肩 LLaMA-2 70B 和 GPT-3.5。 但是,它也有两个问题。一是专家激活率低 —— 也就是搞不好会出现下图这种情况: 具体来说,就是在优化时只有一小部分专家会被激活,如图 1a 所示(8.33% 的激活率),这会导致在学习应对复杂任务的大量专家时,会出现性能次优和效果不佳的问题。 二是无法细粒度地分析单个 token 的多重语义概念,比如多义词和具有多重细节的图块。 近日,微软研究院和清华大学提出了多头混合专家(MH-MoE)。顾 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览