“DeepSeek甚至绕过了CUDA”，论文细节再引热议，工程师灵魂提问：英伟达护城河还在吗？

量子位 · 公众号 · AI · 2025-01-29 11:25

文章预览

梦晨西风发自凹非寺量子位 | 公众号 QbitAI 英伟达刚刚从 DeepSeek-R1 引发的4万亿元暴跌中缓过劲来，又面临新的压力？硬件媒体Tom‘s Hardware带来开年最新热议： DeepSeek甚至绕过了CUDA，使用更底层的编程语言做优化。这一次是 DeepSeek-V3 论文中的更多细节，被人挖掘出来。来自 Mirae Asset Securities Research （韩国未来资产证券）的分析称，V3的硬件效率之所以能比Meta等高出10倍，可以总结为“他们从头开始重建了一切”。在使用英伟达的H800 GPU训练DeepSeek-V3时，他们针对自己的需求把132个流式多处理器（SMs）中的 20个修改成负责服务器间的通信，而不是计算任务。变相绕过了硬件对通信速度的限制。 △ DeepSeek-V3 Technical Report 这种操作是用英伟达的PTX （Parallel Thread Execution）语言实现的，而不是CUDA。 PTX在接近汇编语言的层级运行，允许进行细粒度 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博