训练一次经历 419 次意外故障！英伟达 GPU 也差点玩不转 405B 模型，全靠 Meta 工程师后天救场！

AI前线 · 公众号 · AI · 2024-07-29 13:16

文章预览

整理 | 华卫最近，Meta 在一份研究报告中揭示了训练 Llama 3 405B 参数模型的重大挑战：该系统在包含 16384 个 Nvidia H100 GPU 的集群上运行，在训练期间平均每三个小时就发生一次故障， 54 天内经历了 419 次意外故障。这些故障中，有一半以上的情况都归因于 GPU 及其高带宽内存（HBM3）。由于 GPU 训练任务的规模庞大和高度同步，Llama 3 很容易发生故障，且单个 GPU 故障就会中断整个训练过程，导致必须重新启动。不过，据介绍，尽管存在这些问题，Llama 3 团队仍在支持自动化集群维护（例如固件和 Linux 内核升级）的同时，实现了超过 90% 的有效训练时间（有效训练时间是指实际用于有用训练的时间与经过时间的比例）。正如一句古老的超级计算谚语所言，“大规模系统唯一可以确定的就是失败。”超级计算机是极其复杂的设备，使用数万个处理器 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【KeymouseGo：像按键精灵一样的自动化操作软件，能记录你-20241219194449

昨天

宝玉xp · 昨天改了一段 AI 生成的 React 代码，结果怎么也不起作用-20241218004922

3 天前

机器之心 · Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

3 天前

机器之心 · 哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

5 天前

爱可可-爱生活 · 本文提出了一个名为TIME的框架，系统地研究了时间模型融合，发现-20241215071808

5 天前