专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

算法、系统和应用,三个视角全面读懂《混合专家(MoE)》

专知  · 公众号  ·  · 2024-07-28 14:00

文章预览

转载机器之心报道 编辑:Panda W LLM 很强,而为了实现 LLM 的可持续扩展,有必要找到并实现能提升其效率的方法,混合专家(MoE)就是这类方法的一大重要成员。 最近,各家科技公司提出的新一代大模型不约而同地正在使用混合专家(Mixture of Experts:MoE)方法。 混合专家这一概念最早诞生于 1991 年的论文《Adaptive mixtures of local experts》,三十多年来已经得到了广泛的探索和发展。近年来,随着稀疏门控 MoE 的出现和发展,尤其是与基于 Transformer 的大型语言模型相结合,这种已有三十多年历史的技术焕发出了新的生机。 MoE 框架基于一个简单却又强大思想:模型的不同部分(称为专家)专注于不同的任务或数据的不同方面。 使用这一范式时,对于一个输入,仅有与之相关的专家(Expert)才会参与处理,这样一来便能控制计算成本,同时仍能受益于大 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览