GPU训Llama 3.1疯狂崩溃，竟有大厂用CPU服务器跑千亿参数大模型？

机器学习研究组订阅 · 公众号 · AI · 2024-08-01 16:58

文章预览

马斯克19天建成由10万块H100串联的世界最大超算，已全力投入Grok 3的训练中。与此同时，外媒爆料称，OpenAI和微软联手打造的下一个超算集群，将由10万块GB200组成。在这场AI争霸赛中，各大科技公司们卯足劲加大对GPU的投资，似乎在暗示着拥有更多、更强大的GPU，就能让自己立于不败之地。然而，这种对高端GPU的狂热追求，并非在所有情况下，都是完美无缺的解决方案。 Pytorch之父表示，技术报告中暗藏了很多基础设施的有趣细节，包括如何并行化，如何让系统更可靠等等就拿稳定性来说，在Llama 3.1训练的54天里，Meta的1.6万块H100集群总共遇到了419次意外中断，相当于平均每3小时发生一次。而在这之中，有148次（30.1%）是由于各种GPU故障引起的。相比之下，由CPU故障引发的中断，只有2次。另一方面，想要把Llama 3.1 405B跑起来，还得搭配2台8×H100 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【Awesome-Efficient-MoE：专注于高效混合专家-20241123160520

2 天前

爱可可-爱生活 · 【tex-fmt：一个用Rust编写的超高性能LaTeX代码格式-20241123160751

2 天前

爱可可-爱生活 · 【Electrobun：新型跨平台桌面应用开发框架，使用Type-20241122200112

3 天前

黄建同学 · #英伟达##英伟达Blackwell芯片已全面投产#国外分析师B-20241121092656

4 天前

爱可可-爱生活 · 【Photoshop与AI绘画工具桥梁：sd-ppp，让你在Ph-20241119140318

6 天前