文章预览
Meta 最近发布了一篇研究论文,详细介绍了其 Llama 3 405B 模型在由 16384 个英伟达 H100 80GB GPU 组成的集群上进行训练。 训练整整进行了 54 天,在此期间,集群遇到了 419 次意外部件故障,平均每三个小时发生一次故障。 在一半的故障情形下,GPU 或其板载 HBM3 内存是罪魁祸首。 正如超级计算行业有句老话,大规模系统唯一可以确定的就是肯定会出故障。 超级计算机是极其复杂的设备,使用数万个处理器、数十万个芯片以及数百英里长的电缆。在一台复杂的超级计算机中,每隔几个小时就出现故障司空见惯。 不管出现怎样的此类局部故障,开发人员的主要本领就是确保系统保持运行。 16384 个 GPU 进行训练的庞大规模和同步特性使其容易出现故障。 如果不能正确地减少故障,单单一个 GPU 故障就可能会中断整个训练任务,需要重新启动。 然而,Llama 3
………………………………