专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

从零实现一个MOE(专家混合模型)

吃果冻不吐果冻皮  · 公众号  ·  · 2024-06-06 12:00
    

文章预览

【点击】 加入大模型技术交流群 原文:https://zhuanlan.zhihu.com/p/701777558 什么是混合模型(MOE) MOE主要由两个关键点组成: 一是将传统Transformer中的FFN(前馈网络层)替换为 多个稀疏的专家层(Sparse MoE layers) 。每个专家本身是一个独立的神经网络,实际应用中,这些专家通常是前馈网络 (FFN),但也可以是更复杂的网络结构。 二是 门控网络或路由 :此部分用来决定输入的token分发给哪一个专家。 可能有对FFN(前馈网络层)不太熟悉的小伙伴可以看一下下面的代码及图例,很简单就是一个我们平时常见的结构。 class FeedForward (nn . Module): def __init__ ( self , dim_vector, dim_hidden, dropout = 0.1 ): super () . __init__() self . feedforward = nn . Sequential( nn . Linear(dim_vector, dim_hidden), nn . ReLU(), nn . Dropout(dropout), nn . Linear(di ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览