Llama 3.1训练现高频故障　半数归咎英伟达的H100与HBM3

梓豪谈芯 · 公众号 · · 2024-09-10 23:34

文章预览

隨著大型語言模型（ LLM）的反覆運算，其GPU用量也在不斷增長。Meta的Llama 1使用了2,028張GPU，而到了Llama 3.1 405B，AI GPU已經高達1萬6,384張，成為名副其實的「萬卡集群」。不過，高達4,050億參數的LLM，也讓NVIDIA AI GPU面臨大考，規模如此龐大的運算系統出現了可靠性和運行方面的巨大挑戰，根據Meta最近公佈的研究顯示，在長達54天的訓練過程中，Llama 3.1訓練遇到了4百餘次意外零組件故障，平均每3小時發生一次。據Tom’s Hardware報導，Llama 3.1 405B模型訓練過程中共發生466次訓練中斷，其中47次是計畫性中斷，419次是意外中斷。計畫性中斷主要是因為自動化維護，而意外中斷多數是由硬體問題所引起。儘管如此，只有3起事件需要人為干預，其餘皆由系統自動處理。 Meta在研究論文中列出統計表格指出，在意外中斷中，有148次中斷是由NVIDIA的H100 GPU故障引起 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

Llama 3.1训练现高频故障 半数归咎英伟达的H100与HBM3

文章预览

Llama 3.1训练现高频故障　半数归咎英伟达的H100与HBM3