专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

蚂蚁国产GPU训练大模型细节曝光!Ling模型研发负责人回应:关于我们抠FLOPS的一些点滴

量子位  · 公众号  · AI  · 2025-03-27 11:00
    

文章预览

转自 知乎 作者 张志强 蚂蚁Ling模型研发负责人 蚂蚁 开源大模型的低成本训练 细节,疑似曝光! 这段时间,蚂蚁一篇技术论文引发关注。论文中显示,他们推出的两款MoE大模型,能够在国产GPU上完成与英伟达同效的训练。一时间,该消息在技术圈发酵,登上了热搜,甚至还传出「计算成本低于DeepSeek」一些传闻。 现在,蚂蚁Ling模型研发负责人张志强在知乎上 作出了回应 。 他发布长文 《关于我们抠 FLOPS 的一些点滴》 ,分享了他们一些大模型训练的经验和教训。 包括训练正确性对齐、Router TP(Tensor Parallelism)bug 修复、训练稳定性等问题的解决。 最后还回应了外界对于他们成本计算的误解,并表示不管是在 GPU 还是在国产加速卡上,LLM 的训练成本优化都是无止境的。 Ling 的训练过程一定程度地说明,在我们做的这些技术努力上, 国产加速卡的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览