专栏名称: 云头条
引领科技变革,连接技术与商业
今天看啥  ›  专栏  ›  云头条

训练 Llama 3 时:16384 个 GPU 集群,3 个小时出现一次故障!

云头条  · 公众号  ·  · 2024-07-29 23:30
    

文章预览

Meta 最近发布了一篇研究论文,详细介绍了其 Llama 3 405B 模型在由 16384 个英伟达 H100 80GB GPU 组成的集群上进行训练。 训练整整进行了 54 天,在此期间,集群遇到了 419 次意外部件故障,平均每三个小时发生一次故障。 在一半的故障情形下,GPU 或其板载 HBM3 内存是罪魁祸首。 正如超级计算行业有句老话,大规模系统唯一可以确定的就是肯定会出故障。 超级计算机是极其复杂的设备,使用数万个处理器、数十万个芯片以及数百英里长的电缆。在一台复杂的超级计算机中,每隔几个小时就出现故障司空见惯。 不管出现怎样的此类局部故障,开发人员的主要本领就是确保系统保持运行。 16384 个 GPU 进行训练的庞大规模和同步特性使其容易出现故障。 如果不能正确地减少故障,单单一个 GPU 故障就可能会中断整个训练任务,需要重新启动。 然而,Llama 3 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览