讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

MOE新范式探索——Soft MOE

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-05 00:53
    

文章预览

1 MOE结构调研 2  Sparse MOE——>Soft MOE 2.1 方法 2.2 softmoe对计算量的影响? 2.3 实验 2.4 局限性 ICLR2024 spotlight工作——softmoe,提供一种MOE结构上的新范式。 1 MOE结构调研 在介绍softmoe之前,可以先总结下目前存在的一些MOE结构,下面是从五个维度对这些结构进行大致分类: Load balancing: 负载均衡对工程有利,降低专家计算瓶颈,但对模型表现有损。目前好像并没有看到如何trade off这两方面的科学的方法。 也许可以类比openai scaling中的cirtical batch size的概念,在该batch size下,对训练step和数据量总增幅比例最低。 MOE达到负载均衡的手段通常有两种:1、辅助loss,如Outrageously MOE基于变异系数Gshard、switch类似KL损失。最近开源的Deepseek也是采用与switch相同形式的loss。2、机制设计,如通过expert choice、base layser(linear programs)、Hash layers(hash router)等,无侵入 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览