从零实现一个MOE（专家混合模型）

吃果冻不吐果冻皮 · 公众号 · · 2024-06-06 12:00

文章预览

【点击】加入大模型技术交流群原文：https://zhuanlan.zhihu.com/p/701777558 什么是混合模型（MOE） MOE主要由两个关键点组成：一是将传统Transformer中的FFN（前馈网络层）替换为多个稀疏的专家层（Sparse MoE layers）。每个专家本身是一个独立的神经网络，实际应用中，这些专家通常是前馈网络 (FFN)，但也可以是更复杂的网络结构。二是门控网络或路由：此部分用来决定输入的token分发给哪一个专家。可能有对FFN（前馈网络层）不太熟悉的小伙伴可以看一下下面的代码及图例，很简单就是一个我们平时常见的结构。 class FeedForward (nn . Module): def __init__ ( self , dim_vector, dim_hidden, dropout = 0.1 ): super () . __init__() self . feedforward = nn . Sequential( nn . Linear(dim_vector, dim_hidden), nn . ReLU(), nn . Dropout(dropout), nn . Linear(di ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博