文章预览
【点击】 加入大模型技术交流群 原文:https://zhuanlan.zhihu.com/p/701777558 什么是混合模型(MOE) MOE主要由两个关键点组成: 一是将传统Transformer中的FFN(前馈网络层)替换为 多个稀疏的专家层(Sparse MoE layers) 。每个专家本身是一个独立的神经网络,实际应用中,这些专家通常是前馈网络 (FFN),但也可以是更复杂的网络结构。 二是 门控网络或路由 :此部分用来决定输入的token分发给哪一个专家。 可能有对FFN(前馈网络层)不太熟悉的小伙伴可以看一下下面的代码及图例,很简单就是一个我们平时常见的结构。 class FeedForward (nn . Module): def __init__ ( self , dim_vector, dim_hidden, dropout = 0.1 ): super () . __init__() self . feedforward = nn . Sequential( nn . Linear(dim_vector, dim_hidden), nn . ReLU(), nn . Dropout(dropout), nn . Linear(di
………………………………