讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

深度学习新进展:多头混合专家(MH-MoE)解决稀疏专家混合(MoE)的两大难题

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-05 00:53
    

文章预览

Abstract 稀疏专家混合(MoE)在不显著增加训练和推理成本的情况下扩展了模型容量。然而,它存在两个问题:(1)_专家激活率低_,只有一小部分专家被激活用于优化,导致性能次优,限制了在复杂任务中学习更多专家的有效性。(2)_缺乏对单个标记内多个语义概念的细粒度分析能力_。在本文中,作者提出了多头混合专家(MH-MoE)。MH-MoE采用多头机制将每个输入标记分割成多个子标记。然后这些子标记被分配给并并行处理一组多样化的专家,并无缝地重新整合回原始标记形式。上述操作使MH-MoE能够共同关注来自不同专家中各种表示空间的信息,以加深上下文理解,同时显著提高专家激活。值得注意的是,作者的MH-MoE易于实现,并且与其他SMoE框架解耦,使其易于与这些框架集成以提高性能。在三个任务上的广泛实验结果:以英语为重点的语言建模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览