训练 Llama 3 时：16384 个 GPU 集群，3 个小时出现一次故障！

云头条 · 公众号 · · 2024-07-29 23:30

文章预览

Meta 最近发布了一篇研究论文，详细介绍了其 Llama 3 405B 模型在由 16384 个英伟达 H100 80GB GPU 组成的集群上进行训练。训练整整进行了 54 天，在此期间，集群遇到了 419 次意外部件故障，平均每三个小时发生一次故障。在一半的故障情形下，GPU 或其板载 HBM3 内存是罪魁祸首。正如超级计算行业有句老话，大规模系统唯一可以确定的就是肯定会出故障。超级计算机是极其复杂的设备，使用数万个处理器、数十万个芯片以及数百英里长的电缆。在一台复杂的超级计算机中，每隔几个小时就出现故障司空见惯。不管出现怎样的此类局部故障，开发人员的主要本领就是确保系统保持运行。 16384 个 GPU 进行训练的庞大规模和同步特性使其容易出现故障。如果不能正确地减少故障，单单一个 GPU 故障就可能会中断整个训练任务，需要重新启动。然而，Llama 3 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博