文章预览
Abstract 稀疏专家混合(MoE)在不显著增加训练和推理成本的情况下扩展了模型容量。然而,它存在两个问题:(1)_专家激活率低_,只有一小部分专家被激活用于优化,导致性能次优,限制了在复杂任务中学习更多专家的有效性。(2)_缺乏对单个标记内多个语义概念的细粒度分析能力_。在本文中,作者提出了多头混合专家(MH-MoE)。MH-MoE采用多头机制将每个输入标记分割成多个子标记。然后这些子标记被分配给并并行处理一组多样化的专家,并无缝地重新整合回原始标记形式。上述操作使MH-MoE能够共同关注来自不同专家中各种表示空间的信息,以加深上下文理解,同时显著提高专家激活。值得注意的是,作者的MH-MoE易于实现,并且与其他SMoE框架解耦,使其易于与这些框架集成以提高性能。在三个任务上的广泛实验结果:以英语为重点的语言建模
………………………………