MoE 高效训练的 A/B 面：与魔鬼做交易，用「显存」换「性能」

大数据文摘 · 公众号 · 大数据 · 2024-05-27 14:42

文章预览

大数据文摘受权转载自AI科技评论作者｜房晓楠编辑｜陈彩娴 MoE 会成为未来大模型训练的新方向吗？这是人们发现 MoE 架构可以用于大模型训练、推理后，发出的一声疑问。 MoE（Mixture of Experts），又称「混合专家」，本质是一种模块化的稀疏激活。怎么理解？当前的大模型主要分为稠密（dense）模型与稀疏（sparse）模型，两者的区别主要在于模型进行计算时，被调用的参数数量，参数全部生效使用的是稠密模型，比如 OpenAI 从第一代到第三代即 GPT-1、 GPT-2、 GPT-3，以及 Meta 的 Llama 系列都是稠密模型；只使用其中一部分参数的是稀疏模型，比如基于 MoE 架构的模型，而这些被使用的参数称为「激活参数」。具体从网络结构来看，目前主流的大模型大都是基于 Transformer 架构，由多个 Transformer Block 叠加组成，在每一个 Transformer Block 内部都会包括两层 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

软件定义世界（SDX） · “十五五”企业数智化战略规划方法论

昨天

数据派THU · 分布匹配蒸馏：扩散模型的单步生成优化方法研究

2 天前

中国认证认可 · 市场监管总局印发市场监管所标准化规范化建设典型案例（附一图读懂）

6 月前

陆慧明 · 蒋娴：遭遇低谷的帕尔梅拉斯能全身而退吗？

5 月前

鸡西新闻网 · 【精彩回顾】2024年度“感动鸡西”人物发布仪式

3 周前

3d tof · 多传感器融合的希望？Affine EKF：改进卡尔曼滤波一致性，多种SLAM均有增益！

2 周前