微软让MoE长出多个头，大幅提升专家激活率

数据派THU · 公众号 · 大数据 · 2024-05-21 15:06

文章预览

来源：机器之心本文约3000字，建议阅读 6分钟本文介绍了 MH-MoE 的方法。 ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ MH-MoE 能优化几乎所有专家，实现起来非常简单。混合专家（MoE）是个好方法，支持着现在一些非常优秀的大模型，比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。稀疏混合专家（SMoE）可在不显著增加训练和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是一个 SMoE 模型，其包含 8 个专家（共 7B 参数），而其表现却可以超过或比肩 LLaMA-2 70B 和 GPT-3.5。但是，它也有两个问题。一是专家激活率低 —— 也就是搞不好会出现下图这种情况：具体来说，就是在优化时只有一小部分专家会被激活，如图 1a 所示（8.33% 的激活率），这会导致在学习应对复杂任务的大量专家时，会出现性能次优和效果不佳的问题。二是无法细粒度地分 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博