专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

从ACL 2024录用论文看混合专家模型（MoE）最新研究进展

深度学习自然语言处理 · 公众号 · 科技自媒体 · 2024-08-25 11:54

主要观点总结

本文梳理了近期关于混合专家模型（MoE）的一系列论文，涵盖了DeepSeekMoE、Dynamic MoE、XMoE、HyperMoE、Expert SparsityPublic、MixLoRA以及ESFT等相关工作。文章详细介绍了各篇论文的动机、方法和发现，并提供了代码链接。这些论文主要探讨了MoE模型中的专家数量、动态路由、模型压缩等话题。

关键观点总结

关键观点1: DeepSeekMoE

通过拆分专家增加专家数量，解决专家不够分化的问题；提出了基于阈值的动态路由方法；在参数效率上有所优化。

关键观点2: Dynamic MoE

提出基于阈值的路由方法，使模型能根据任务的复杂度动态选择专家数量；分析了一旦专家数量过多，路由过程可能会带来的计算负担。

关键观点3: XMoE

探索了缩小专家规模的方法；通过结合路由方法和稀疏训练策略优化了模型性能；提出了对MoE模型参数效率的优化方案。

关键观点4: HyperMoE

引入hypernetworks的概念，尝试让专家之间互帮互助，提高模型效率；探讨了在不增加计算负担的前提下优化MoE模型的方法。

关键观点5: Expert SparsityPublic

关注MoE模型的部署效率，提出了专家剪枝和动态跳过专家的方法；通过实验验证了方法的有效性。

关键观点6: MixLoRA

将LoRA（Low-Rank Adaptation）技术引入到多模态多任务学习中，解决任务干扰问题；通过合成小矩阵或向量作为MoE的专家，提高了模型的参数效率。

关键观点7: ESFT

专注于参数高效的微调（PEFT）在MoE模型上的应用；提出了一种基于任务数据的专家选择方法，只微调与任务高度相关的专家参数。

文章预览

来源 | PaperWeekly 作者 | 杨远航@哈尔滨工业大学（深圳）最近 ACL 2024 论文放榜，扫了下，SMoE（稀疏混合专家）的论文不算多，这里就仔细梳理一下，包括动机、方法、有趣的发现，方便大家不看论文也能了解的七七八八，剩下只需要感兴趣再看就好。下面是列表，顺序大抵是个人兴趣程度排序。 1. DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models 2. Harder Tasks Need More Experts: Dynamic Routing in MoE Models 3. XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection 4. HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts 5. Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models 6. Multimodal Instruction Tuning with Conditional Mixture of LoRA 未完待续，大概还遗漏了一二三四篇，后续再加上 2024 年的一些 MoE 论文： 1. Let the Expert ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

李楠或kkk · 当然，日本的分级医疗体系在大s这个 case 上肯定有问题，但是-20250203233119

昨天

财联社AI daily · 界面财联社“AI小财神”正式上线大年初五邀您一起“迎财神”

昨天

财联社AI daily · 界面财联社“AI小财神”正式上线大年初五邀您一起“迎财神”

昨天

科技美学官方 · OPPO这一年丨冲高端，全面开花

2 天前

新腕儿 · 1日付费短剧热度大盘6316万：《人间有朝暮，云海苦无情》连续第一

3 天前

李楠或kkk · 说实话 perplexity，kimi，gpt联网搜索之后，我本-20250129220038

6 天前

纪源资本 · “他们总在改变潮水的方向”——如何更准确地招到优秀的人？｜投资笔记

8 月前

南国都市报 · 七旬老人会车滑倒掉落深沟，陵水消防紧急出动……

4 月前

APPSO · OpenAI 或推出每月 1.4 万元的「博士级」ChatGPT，业内大神：先让 AI 做好实习生

1 月前

英文巴士 · 【翻译比赛】第四届“优译杯”全国技术翻译大赛获奖名单

1 月前