一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

微软提出GRIN MoE,引领大规模预训练模型的新浪潮

深度学习自然语言处理  · 公众号  ·  · 2024-09-19 23:55
    

文章预览

链接:https://arxiv.org/html/2409.12136v1 论文:GRIN: GRadient-INformed MoE 研究背景 研究问题 :这篇文章要解决的问题是如何有效地训练混合专家(MoE)模型,以克服稀疏计算对传统训练方法的挑战。MoE模型通过专家路由选择性地激活少量专家模块,从而实现比密集模型更有效的扩展。然而,离散的专家路由阻碍了标准的反向传播和基于梯度的优化。 研究难点 :该问题的研究难点包括:离散专家路由导致不可微输出,无法直接应用反向传播进行梯度计算;MoE模型的稀疏激活机制使得标准的训练方法难以有效应用。 相关工作 :该问题的研究相关工作有:Lepikhin等人(2021)、Fedus等人(2022)、Zoph等人(2022)提出的MoE模型,这些模型通过专家路由实现模型扩展,但在训练过程中面临梯度估计和稀疏计算的挑战。 研究方法 这篇论文提出了GRIN(Gradient-Informed MoE tra ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览