动手实现混合专家网络MoE

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-06-21 00:10

文章预览

前言从大模型爆火至今，我们所熟知的大多数模型基本上都遵循了GPT的模型结构，即Decoder-only的结构，更准确的说是Casual Decoder，例如LLaMA[1]，OPT[2]以及BLOOM[3]等。这类模型结构由于单向注意力机制的限制，因此训练出来的模型只能基于前文以next token prediction的方式预测后续文本从而生成文本序列。由于类似于Encoder-only的结构（例如 BERT[4]）以及Encoder-Decoder的结构（例如 T5[5] ）通过双向注意力机制可以更好的理解文本，于是有些研究人员将双向注意力机制融入到 Decoder-only的结构中，便产生了Prefix Decoder的结构，相关的优秀工作包括GLM[6]，U-PaLM[7]等。然而，近段时间，另一种模型结构逐渐展示出了优越性能，就是MoE（ Mixture of Experts ），例如Mistral [8] 等。其实，MoE这个概念很早之前就已经被提出，只不过最近才逐渐又火起来。准确的说， MoE是一种结 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博