讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

动手实现混合专家网络MoE

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-21 00:10
    

文章预览

前言 从大模型爆火至今,我们所熟知的大多数模型基本上都遵循了GPT的模型结构,即Decoder-only的结构,更准确的说是Casual Decoder,例如LLaMA[1],OPT[2]以及BLOOM[3]等。这类模型结构由于单向注意力机制的限制,因此训练出来的模型只能基于前文以next token prediction的方式预测后续文本从而生成文本序列。由于类似于Encoder-only的结构(例如 BERT[4]) 以及Encoder-Decoder的结构(例如 T5[5] )通过双向注意力机制可以更好的理解文本,于是有些研究人员将双向注意力机制融入到 Decoder-only的结构中,便产生了Prefix Decoder的结构,相关的优秀工作包括GLM[6],U-PaLM[7]等。然而,近段时间,另一种模型结构逐渐展示出了优越性能,就是MoE( Mixture of Experts ),例如Mistral [8] 等。其实,MoE这个概念很早之前就已经被提出,只不过最近才逐渐又火起来。准确的说, MoE是一种结 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览