训练一次经历 419 次意外故障！英伟达 GPU 也差点玩不转 405B 模型，全靠 Meta 工程师后天救场！

InfoQ · 公众号 · 科技媒体 · 2024-07-30 13:30

文章预览

整理 | 华卫最近，Meta 在一份研究报告中揭示了训练 Llama 3 405B 参数模型的重大挑战：该系统在包含 16384 个 Nvidia H100 GPU 的集群上运行，在训练期间平均每三个小时就发生一次故障， 54 天内经历了 419 次意外故障。这些故障中，有一半以上的情况都归因于 GPU 及其高带宽内存（HBM3）。由于 GPU 训练任务的规模庞大和高度同步，Llama 3 很容易发生故障，且单个 GPU 故障就会中断整个训练过程，导致必须重新启动。不过，据介绍，尽管存在这些问题，Llama 3 团队仍在支持自动化集群维护（例如固件和 Linux 内核升级）的同时，实现了超过 90% 的有效训练时间（有效训练时间是指实际用于有用训练的时间与经过时间的比例）。正如一句古老的超级计算谚语所言，“大规模系统唯一可以确定的就是失败。”超级计算机是极其复杂的设备，使用数万个处理器 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

木紫午盘 · 下周，注意一个风险！

18 小时前

新浪科技 · 【独家对话来也科技CEO汪冠春：随着DeepSeek出圈，春节后-20250222202459

昨天

新浪科技 · 【#专家称杭州有望成为东方硅谷#】里斯品类创新战略咨询全球CEO-20250222220118

昨天

新浪科技 · 【#美火箭碎片坠落后有不明物体坠落波兰#】当地时间2月20日，一-20250220203954

3 天前

新浪科技 · 【机构：#预估今年全球新能源车销量年增18%#】根据TrendF-20250220193000

3 天前

果粉之家 · 犬子和闺女原来是这么来的！

9 月前

康石石 · 快来，这些欧洲名校，高中毕业就能申！

7 月前

有限次重复博弈 · 与其他 G7 国家相比，美国通胀下降更快 -20240921170751

5 月前