专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱,气温波动都会影响吞吐量

量子位  · 公众号  · AI  · 2024-07-29 14:24
    

文章预览

西风 发自 凹非寺 量子位 | 公众号 QbitAI 每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首? 最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点: Llama 3.1在为期54天的预训练期间,经历了共466次任务中断。其中只有47次是计划内的, 419次纯属意外 ,意外中78%已确认或怀疑是硬件问题导致。 而且 GPU问题最严重,占了58.7% 。 Llama 3.1 405模型是在一个含16384块Nvidia H100 80GB GPU集群上进行训练的。虽说针对大规模系统有句老话:唯一确定的就是会出故障。 但这一问题还是引起不少网友关注。 放慢速度,check一下产品吧。 老出故障,咋整? 具体来看,在419次意外中断中,148 次 (30.1%) 是由各种GPU故障 (包括NVLink故障) 引起的,72次  (17.2%) 可以具体到是由HBM3内存故障引起。 鉴于H100的 700W 高功耗和热应力,出现这样的结果也并 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览