专栏名称: 大数据文摘
普及数据思维,传播数据文化
今天看啥  ›  专栏  ›  大数据文摘

MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」

大数据文摘  · 公众号  · 大数据  · 2024-05-27 14:42
    

文章预览

大数据文摘受权转载自AI科技评论 作者|房晓楠 编辑|陈彩娴 MoE 会成为未来大模型训练的新方向吗? 这是人们发现 MoE 架构可以用于大模型训练、推理后,发出的一声疑问。 MoE(Mixture of Experts),又称「混合专家」,本质是一种模块化的稀疏激活。怎么理解? 当前的大模型主要分为稠密(dense)模型与稀疏(sparse)模型,两者的区别主要在于模型进行计算时,被调用的参数数量,参数全部生效使用的是稠密模型,比如 OpenAI 从第一代到第三代即 GPT-1、 GPT-2、 GPT-3,以及 Meta 的 Llama 系列都是稠密模型;只使用其中一部分参数的是稀疏模型,比如基于 MoE 架构的模型,而这些被使用的参数称为「激活参数」。 具体从网络结构来看,目前主流的大模型大都是基于 Transformer 架构,由多个 Transformer Block 叠加组成,在每一个 Transformer Block 内部都会包括两层 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览