文章预览
MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 量子位 作者 | 西风 每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首? 最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点: Llama 3.1在为期54天的预训练期间,经历了共466次任务中断。其中只有47次是计划内的, 419次纯属意外 ,意外中78%已确认或怀疑是硬件问题导致。 而且GPU问题最严重,占了58.7%。 Llama 3.1 405模型是在一个含16384块Nvidia H100 80GB GPU集群上进行训练的。虽说针对大规模系统有句老话:唯一确定的就是会出故障。 但这一问题还是引起不少网友关注。 放慢速度
………………………………