文章预览
1 MOE结构调研 2 Sparse MOE——>Soft MOE 2.1 方法 2.2 softmoe对计算量的影响? 2.3 实验 2.4 局限性 ICLR2024 spotlight工作——softmoe,提供一种MOE结构上的新范式。 1 MOE结构调研 在介绍softmoe之前,可以先总结下目前存在的一些MOE结构,下面是从五个维度对这些结构进行大致分类: Load balancing: 负载均衡对工程有利,降低专家计算瓶颈,但对模型表现有损。目前好像并没有看到如何trade off这两方面的科学的方法。 也许可以类比openai scaling中的cirtical batch size的概念,在该batch size下,对训练step和数据量总增幅比例最低。 MOE达到负载均衡的手段通常有两种:1、辅助loss,如Outrageously MOE基于变异系数Gshard、switch类似KL损失。最近开源的Deepseek也是采用与switch相同形式的loss。2、机制设计,如通过expert choice、base layser(linear programs)、Hash layers(hash router)等,无侵入
………………………………