专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?

量子位  · 公众号  · AI  · 2025-01-29 11:25
    

文章预览

梦晨 西风 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达刚刚从 DeepSeek-R1 引发的4万亿元暴跌中缓过劲来,又面临新的压力? 硬件媒体Tom‘s Hardware带来开年最新热议: DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。 这一次是 DeepSeek-V3 论文中的更多细节,被人挖掘出来。 来自 Mirae Asset Securities Research (韩国未来资产证券) 的分析称,V3的硬件效率之所以能比Meta等高出10倍,可以总结为“他们从头开始重建了一切”。 在使用英伟达的H800 GPU训练DeepSeek-V3时,他们针对自己的需求把132个流式多处理器 (SMs) 中的 20个修改成负责服务器间的通信,而不是计算任务 。 变相绕过了硬件对通信速度的限制。 △  DeepSeek-V3 Technical Report 这种操作是用英伟达的PTX (Parallel Thread Execution) 语言实现的,而不是CUDA。 PTX在接近汇编语言的层级运行,允许进行细粒度 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览