主要观点总结
本文梳理了近期关于混合专家模型(MoE)的一系列论文,涵盖了DeepSeekMoE、Dynamic MoE、XMoE、HyperMoE、Expert SparsityPublic、MixLoRA以及ESFT等相关工作。文章详细介绍了各篇论文的动机、方法和发现,并提供了代码链接。这些论文主要探讨了MoE模型中的专家数量、动态路由、模型压缩等话题。
关键观点总结
关键观点1: DeepSeekMoE
通过拆分专家增加专家数量,解决专家不够分化的问题;提出了基于阈值的动态路由方法;在参数效率上有所优化。
关键观点2: Dynamic MoE
提出基于阈值的路由方法,使模型能根据任务的复杂度动态选择专家数量;分析了一旦专家数量过多,路由过程可能会带来的计算负担。
关键观点3: XMoE
探索了缩小专家规模的方法;通过结合路由方法和稀疏训练策略优化了模型性能;提出了对MoE模型参数效率的优化方案。
关键观点4: HyperMoE
引入hypernetworks的概念,尝试让专家之间互帮互助,提高模型效率;探讨了在不增加计算负担的前提下优化MoE模型的方法。
关键观点5: Expert SparsityPublic
关注MoE模型的部署效率,提出了专家剪枝和动态跳过专家的方法;通过实验验证了方法的有效性。
关键观点6: MixLoRA
将LoRA(Low-Rank Adaptation)技术引入到多模态多任务学习中,解决任务干扰问题;通过合成小矩阵或向量作为MoE的专家,提高了模型的参数效率。
关键观点7: ESFT
专注于参数高效的微调(PEFT)在MoE模型上的应用;提出了一种基于任务数据的专家选择方法,只微调与任务高度相关的专家参数。
文章预览
来源 | PaperWeekly 作者 | 杨远航@哈尔滨工业大学(深圳) 最近 ACL 2024 论文放榜,扫了下,SMoE(稀疏混合专家)的论文不算多,这里就仔细梳理一下,包括动机、方法、有趣的发现,方便大家不看论文也能了解的七七八八,剩下只需要感兴趣再看就好。 下面是列表,顺序大抵是个人兴趣程度排序。 1. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models 2. Harder Tasks Need More Experts: Dynamic Routing in MoE Models 3. XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection 4. HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts 5. Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models 6. Multimodal Instruction Tuning with Conditional Mixture of LoRA 未完待续,大概还遗漏了一二三四篇,后续再加上 2024 年的一些 MoE 论文: 1. Let the Expert
………………………………