文章预览
知乎:朱小霖 链接:https://www.zhihu.com/question/664040671/answer/3655141787 过去就先不说了,这里我 survey 得不够全面,主要来聊一下我认为的现在和未来。 首先说 现状 。 MoE 目前的架构基本集中在于将原先 GPT 每层的 FFN 复制多份作为 n 个 expert,并增加一个 router,用来计算每个 token 对应到哪个 FFN(一般采用每个 token 固定指派 n 个 expert 的方案),也就是类似 Mixtral 7x8B 的结构。之后 deepspeed 和 qwen 都陆续采用了更细的 granularity,也就是在不改变参数数量的情况下,将单个 FFN 变窄,FFN 数量变多,以及采用了 shared expert+,也就是所有 token 都会共享一部分 FFN 的方案。这方面推荐阅读 deepspeed 的这篇论文:《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》 https://arxiv.org/abs/2401.06066 那么基于这样的一个方案,我认为从算法层面和系统层面
………………………………