算法、系统和应用，三个视角全面读懂《混合专家（MoE）》

专知 · 公众号 · · 2024-07-28 14:00

文章预览

转载机器之心报道编辑：Panda W LLM 很强，而为了实现 LLM 的可持续扩展，有必要找到并实现能提升其效率的方法，混合专家（MoE）就是这类方法的一大重要成员。最近，各家科技公司提出的新一代大模型不约而同地正在使用混合专家（Mixture of Experts：MoE）方法。混合专家这一概念最早诞生于 1991 年的论文《Adaptive mixtures of local experts》，三十多年来已经得到了广泛的探索和发展。近年来，随着稀疏门控 MoE 的出现和发展，尤其是与基于 Transformer 的大型语言模型相结合，这种已有三十多年历史的技术焕发出了新的生机。 MoE 框架基于一个简单却又强大思想：模型的不同部分（称为专家）专注于不同的任务或数据的不同方面。使用这一范式时，对于一个输入，仅有与之相关的专家（Expert）才会参与处理，这样一来便能控制计算成本，同时仍能受益于大 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

四川大学本科招生 · 川大来了 | 四川大学赴南充高中开展科普讲座，共探AI医用机器人

9 小时前

四川大学本科招生 · 川大来了 | 四川大学赴南充高中开展科普讲座，共探AI医用机器人

9 小时前

浙江大学 · “我和校长、冠军一起夜跑！”

昨天

厦门大学 · 飞机也能做“B超”？厦大这项“无创体检”技术超精准！

2 天前

医药魔方Info · 开幕在即 | 2024中国医药创新政策论坛最新日程发布

10 月前

金山之旅 · 原创减重指南针减重指南针2025年04月13日 18:01 -20250414065725

2 周前