今天看啥  ›  专栏  ›  zartbot

详细谈谈DeepSeek MoE相关的技术发展

zartbot  · 公众号  · AI 科技自媒体  · 2025-02-13 03:32
    

主要观点总结

文章介绍了DeepSeek系列MoE(Mixture-of-Experts)模型的演进与优化,从V1到V3,探讨了模型架构、专家分割、负载均衡、通信优化、以及训练与推理阶段的策略。DeepSeek通过增加专家数量、细粒度专家分割、共享专家隔离、负载均衡损失函数、设备级负载均衡、Token丢弃策略、改进通信机制等方式,实现了性能的提升。V3版本进一步采用Sigmoid函数作为Gating函数,去除了辅助损失函数,采用动态调整偏置项的策略进行负载均衡,并优化了All-to-All通信机制,提升了训练与推理的效率。

关键观点总结

关键观点1: DeepSeek MoE模型演进

从V1到V3,DeepSeek通过增加专家数量、细粒度专家分割、共享专家隔离、负载均衡损失函数等方式,逐步优化模型架构,提升了性能。

关键观点2: V3版本优化

V3版本采用Sigmoid函数作为Gating函数,去除了辅助损失函数,采用动态调整偏置项的策略进行负载均衡,并优化了All-to-All通信机制,提升了训练与推理的效率。

关键观点3: 负载均衡策略

DeepSeek通过定义辅助损失函数、设备级负载均衡损失、Token丢弃策略等方式,实现了负载均衡,避免了专家路由崩塌和计算负载不均衡的问题。

关键观点4: 通信优化

DeepSeek优化了All-to-All通信机制,通过IB和NVLink的协同设计,实现了高效的通信,减少了SM的占用,提高了计算性能。

关键观点5: 训练与推理策略

DeepSeek在训练与推理阶段采用了不同的策略,包括动态调整专家选择、优化通信机制等,提升了模型的性能和效率。


文章预览

前几天临时加了一个任务, 帮着几个兄弟团队做一些DeepSeek-R1满血版的推理优化, 当然现阶段主要是在SGlang和vLLM上做一些简单的调优, 毕竟H20这些卡的资源也挺紧张的. 最近发现SGlang和vLLM两个团队卷的挺厉害的. vLLM 0.7.2增加了Triton MLA和FusedMoE的优化, 然后比起SGlang还有pp并行的优势. 当然SGlang的pp并行也在开发, 另一方面vLLM的MTP也在开发中, 未来两三周两个框架的性能还有进一步提升的空间. 通过搞了几天推理对DeepSeek MoE有了一些理解, 然后经过DeepSeek团队同学的指正, 原来的对MoE Group Limit的一些理解还是存在错误的, 因此详细来写一篇关于MoE的笔记. 另外, 很多事情还是得在一线把自己手弄脏, 满手是泥的才能体会到很多工程细节上的巧妙之处, 很多人可能就是读读论文, “不就是MoE么, 我也有呀”, 正是这样的一些问题, 错失了了解很多工程细节里的巧妙. ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览