文章预览
梦晨 西风 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达刚刚从 DeepSeek-R1 引发的4万亿元暴跌中缓过劲来,又面临新的压力? 硬件媒体Tom‘s Hardware带来开年最新热议: DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。 这一次是 DeepSeek-V3 论文中的更多细节,被人挖掘出来。 来自 Mirae Asset Securities Research (韩国未来资产证券) 的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。 在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器 (SMs) 中的 20个修改成负责服务器间的通信,而不是计算任务 。 变相绕过了硬件对通信速度的限制。 △ DeepSeek-V3 Technical Report 这种操作是用英伟达的PTX (Parallel Thread Execution) 语言实现的,而不是CUDA。 PTX在接近汇编语言的层级运行,允许进行细粒度
………………………………