专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
今天看啥  ›  专栏  ›  AINLP

MoE的top-p routing

AINLP  · 公众号  ·  · 2024-07-16 10:10
    

文章预览

北大、快手和AGIBang共同提出MoE模型的dynamic routing机制,把gating的top-k routing改成top-p routing,在减少平均激活参数量的同时效果还略有提升。 MoE相关基础可参考 MoE模型的前世今生 。 1.routing 1.1.top-k routing 目前大部分的MoE模型采用的routing策略是top-k routing。比如当 k = 2,则每个输入token在每个MoE层会激活2个专家(忽略token drop等机制)。 假设每个MoE层有N个expert,这些expert的集合记为 ,那么输入token x在MoE层的计算如下: top-k routing由Google在《Outrageously large neural networks: The sparsely-gated mixture-of-experts layer》中提出,应用在LSTM模型上,之后的一些工作比如《Gshard》、《Switch Transformer》、《ST-MoE》和《Taming sparsely activated transformer with stochastic experts》等则引入了相关constraint来确保多个专家间的负载均衡,以保障模型的效果和效率。 1.2.top-p routing 虽然top-k routing ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章