专栏名称: AI有道
一个有情怀、有良心的公众号。AI领域机器学习、深度学习等知识集中营,干货满满。期待与你共同进步!
目录
相关文章推荐
今天看啥  ›  专栏  ›  AI有道

从 infra 的视角聊聊 DeepSeek-V3

AI有道  · 公众号  ·  · 2025-01-09 10:54
    

文章预览

看完技术报告,从infra的视角分享一些个人看法,供大家讨论。 首先,训练超大号的MoE模型,仅使用两千张H800加两个月的时间,就能达到如此好的效果,这点实在是太强了。只能说实践出先知,从DeepSeek过往的技术报告来看,明显可以感觉到团队的算法能力和系统能力都在持续升级。 知乎 :Lin Zhang 地址 :https://www.zhihu.com/question/7837132971/answer/65665281923 模型结构 遵循system-algorithm co-design原则,DeepSeek-V3继续沿用V2中的MLA和MoE结构,其中前者是为了降低kv cache/token开销,后者是为了降低flops/param开销。 1)MLA技术 我之前就有介绍[1],简单来说就是通过类似LoRA的方式对kv进行降维压缩,同时将升维操作转移到Q和O上,避免反复解压缩。遗憾的是,MLA并没有收获太多关注。一个可能的原因是,它跟MQA相比似乎没有表现出什么优势[2],反而增加了系统复杂度。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览