从 infra 的视角聊聊 DeepSeek-V3

AI有道 · 公众号 · · 2025-01-09 10:54

文章预览

看完技术报告，从infra的视角分享一些个人看法，供大家讨论。首先，训练超大号的MoE模型，仅使用两千张H800加两个月的时间，就能达到如此好的效果，这点实在是太强了。只能说实践出先知，从DeepSeek过往的技术报告来看，明显可以感觉到团队的算法能力和系统能力都在持续升级。知乎：Lin Zhang 地址：https://www.zhihu.com/question/7837132971/answer/65665281923 模型结构遵循system-algorithm co-design原则，DeepSeek-V3继续沿用V2中的MLA和MoE结构，其中前者是为了降低kv cache/token开销，后者是为了降低flops/param开销。 1）MLA技术我之前就有介绍[1]，简单来说就是通过类似LoRA的方式对kv进行降维压缩，同时将升维操作转移到Q和O上，避免反复解压缩。遗憾的是，MLA并没有收获太多关注。一个可能的原因是，它跟MQA相比似乎没有表现出什么优势[2]，反而增加了系统复杂度。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博