文章预览
前言 从大模型爆火至今,我们所熟知的大多数模型基本上都遵循了GPT的模型结构,即Decoder-only的结构,更准确的说是Casual Decoder,例如LLaMA[1],OPT[2]以及BLOOM[3]等。这类模型结构由于单向注意力机制的限制,因此训练出来的模型只能基于前文以next token prediction的方式预测后续文本从而生成文本序列。由于类似于Encoder-only的结构(例如 BERT[4]) 以及Encoder-Decoder的结构(例如 T5[5] )通过双向注意力机制可以更好的理解文本,于是有些研究人员将双向注意力机制融入到 Decoder-only的结构中,便产生了Prefix Decoder的结构,相关的优秀工作包括GLM[6],U-PaLM[7]等。然而,近段时间,另一种模型结构逐渐展示出了优越性能,就是MoE( Mixture of Experts ),例如Mistral [8] 等。其实,MoE这个概念很早之前就已经被提出,只不过最近才逐渐又火起来。准确的说, MoE是一种结
………………………………