文章预览
北大、快手和AGIBang共同提出MoE模型的dynamic routing机制,把gating的top-k routing改成top-p routing,在减少平均激活参数量的同时效果还略有提升。 MoE相关基础可参考 MoE模型的前世今生 。 1.routing 1.1.top-k routing 目前大部分的MoE模型采用的routing策略是top-k routing。比如当 k = 2,则每个输入token在每个MoE层会激活2个专家(忽略token drop等机制)。 假设每个MoE层有N个expert,这些expert的集合记为 ,那么输入token x在MoE层的计算如下: top-k routing由Google在《Outrageously large neural networks: The sparsely-gated mixture-of-experts layer》中提出,应用在LSTM模型上,之后的一些工作比如《Gshard》、《Switch Transformer》、《ST-MoE》和《Taming sparsely activated transformer with stochastic experts》等则引入了相关constraint来确保多个专家间的负载均衡,以保障模型的效果和效率。 1.2.top-p routing 虽然top-k routing
………………………………