专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

理解DeepSeek在MoE技术的演进过程和具体实现

吃果冻不吐果冻皮  · 公众号  ·  · 2025-02-09 11:00
    

文章预览

原文:https://zhuanlan.zhihu.com/p/18565423596 引言 本篇讲讲deepseek在MoE(Mixture-of-Experts)上的演进过程。DeepSeek是MoE稀疏模型的忠实玩家。主版本模型从DeepSeekMoE(V1) 到 DeepSeek V3,一直坚持走MoE的技术路线,并且持续做出一些创新。本文参考paper并结合源码阅读,理解MoE的演进过程和具体实现。 1.简述MoE的发展历程 首先我们简单回顾下MoE的发展历史,早在1991年一篇名为 《Adaptive Mixtures of Local Experts 》 [1] 的工作,最早提出了Mixture of Experts的原型框架,如图1,直至今日,MoE的框架依然保持这种形式。 图1、Adaptive Mixtures of Local Experts 框图 MoE(Mixture of Experts)是一种网络层结构, 网络层主要包括三部分 : •  专家网络(Expert Network) :是一个前馈网络,逻辑上一个专家网络擅长处理一类专项的子任务,所有专家都接受相同的输入,来做特定计算处理,产出不同的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览