专栏名称: zartbot

随便记录点有趣的东西

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

详细谈谈DeepSeek MoE相关的技术发展

zartbot · 公众号 · AI 科技自媒体 · 2025-02-13 03:32

主要观点总结

文章介绍了DeepSeek系列MoE（Mixture-of-Experts）模型的演进与优化，从V1到V3，探讨了模型架构、专家分割、负载均衡、通信优化、以及训练与推理阶段的策略。DeepSeek通过增加专家数量、细粒度专家分割、共享专家隔离、负载均衡损失函数、设备级负载均衡、Token丢弃策略、改进通信机制等方式，实现了性能的提升。V3版本进一步采用Sigmoid函数作为Gating函数，去除了辅助损失函数，采用动态调整偏置项的策略进行负载均衡，并优化了All-to-All通信机制，提升了训练与推理的效率。

关键观点总结

关键观点1: DeepSeek MoE模型演进

从V1到V3，DeepSeek通过增加专家数量、细粒度专家分割、共享专家隔离、负载均衡损失函数等方式，逐步优化模型架构，提升了性能。

关键观点2: V3版本优化

V3版本采用Sigmoid函数作为Gating函数，去除了辅助损失函数，采用动态调整偏置项的策略进行负载均衡，并优化了All-to-All通信机制，提升了训练与推理的效率。

关键观点3: 负载均衡策略

DeepSeek通过定义辅助损失函数、设备级负载均衡损失、Token丢弃策略等方式，实现了负载均衡，避免了专家路由崩塌和计算负载不均衡的问题。

关键观点4: 通信优化

DeepSeek优化了All-to-All通信机制，通过IB和NVLink的协同设计，实现了高效的通信，减少了SM的占用，提高了计算性能。

关键观点5: 训练与推理策略

DeepSeek在训练与推理阶段采用了不同的策略，包括动态调整专家选择、优化通信机制等，提升了模型的性能和效率。

文章预览

前几天临时加了一个任务, 帮着几个兄弟团队做一些DeepSeek-R1满血版的推理优化, 当然现阶段主要是在SGlang和vLLM上做一些简单的调优, 毕竟H20这些卡的资源也挺紧张的. 最近发现SGlang和vLLM两个团队卷的挺厉害的. vLLM 0.7.2增加了Triton MLA和FusedMoE的优化, 然后比起SGlang还有pp并行的优势. 当然SGlang的pp并行也在开发, 另一方面vLLM的MTP也在开发中, 未来两三周两个框架的性能还有进一步提升的空间. 通过搞了几天推理对DeepSeek MoE有了一些理解, 然后经过DeepSeek团队同学的指正, 原来的对MoE Group Limit的一些理解还是存在错误的, 因此详细来写一篇关于MoE的笔记. 另外, 很多事情还是得在一线把自己手弄脏, 满手是泥的才能体会到很多工程细节上的巧妙之处, 很多人可能就是读读论文, “不就是MoE么, 我也有呀”, 正是这样的一些问题, 错失了了解很多工程细节里的巧妙. ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

常观 · 一夜刷屏，全网“抢码”！有人炒至5万元

5 小时前

常观 · 一夜刷屏，全网“抢码”！有人炒至5万元

5 小时前

甘肃公安 · 【致敬了不起的她】魏一茜：在数据海洋中点亮平安灯火的“警营女匠”

昨天

甘肃公安 · 【致敬了不起的她】魏一茜：在数据海洋中点亮平安灯火的“警营女匠”

昨天

壹股经 · 2025.3.5再次爆发了，大面积20cm涨停！

昨天

壹股经 · 2025.3.5再次爆发了，大面积20cm涨停！

昨天

杨浦科技创业中心 · 【活动对对碰】个税汇算清缴政策解读活动成功举办

2 天前

杨浦科技创业中心 · 【活动对对碰】个税汇算清缴政策解读活动成功举办

2 天前

逆行的狗 · 77 份问卷调研审计人如何使用AI

3 天前

保研论坛 · 第一时间！中国海洋大学2025年预推免招生通知发布！（含“创新人才培养专项计划”招生）

6 月前

小新说车 · 新款特斯拉Model Y转向灯拨杆回归，Model 3焕新版车主要哭了？

1 月前

平安北京朝阳 · 10天，北京机动车不限号！

1 月前