算法、系统和应用，三个视角全面读懂混合专家（MoE）

机器之心 · 公众号 · AI · 2024-07-26 11:19

文章预览

机器之心报道编辑：Panda W LLM 很强，而为了实现 LLM 的可持续扩展，有必要找到并实现能提升其效率的方法，混合专家（MoE）就是这类方法的一大重要成员。最近，各家科技公司提出的新一代大模型不约而同地正在使用混合专家（Mixture of Experts：MoE）方法。混合专家这一概念最早诞生于 1991 年的论文《Adaptive mixtures of local experts》，三十多年来已经得到了广泛的探索和发展。近年来，随着稀疏门控 MoE 的出现和发展，尤其是与基于 Transformer 的大型语言模型相结合，这种已有三十多年历史的技术焕发出了新的生机。 MoE 框架基于一个简单却又强大思想：模型的不同部分（称为专家）专注于不同的任务或数据的不同方面。使用这一范式时，对于一个输入，仅有与之相关的专家（Expert）才会参与处理，这样一来便能控制计算成本，同时仍能受益于大量专 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【[15.3k星]Teable：新一代无代码数据库工具，旨在提供-20250122075949

18 小时前

新智元 · 中科院北大等揭示「蒸馏真相」：除Claude豆包Gemini，其他很多模型都「蒸」过头

昨天

机器之心 · 「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了

昨天

爱可可-爱生活 · 【[38星]AI-ContentCraft：多功能的内容创作助手-20250120190313

2 天前

爱可可-爱生活 · 【[27.6k星]Reactive Resume：免费、开源的简-20250120193643

2 天前

人力资源法律 · 刚入职还未参保就发生工伤怎么处理？| 人力资源法律

6 月前