文章预览
隨著大型語言模型( LLM)的反覆運算,其GPU用量也在不斷增長。Meta的Llama 1使用了2,028張GPU,而到了Llama 3.1 405B,AI GPU已經高達1萬6,384張,成為名副其實的「萬卡集群」。 不過,高達4,050億參數的LLM,也讓NVIDIA AI GPU面臨大考,規模如此龐大的運算系統出現了可靠性和運行方面的巨大挑戰,根據Meta最近公佈的研究顯示,在長達54天的訓練過程中,Llama 3.1訓練遇到了4百餘次意外零組件故障,平均每3小時發生一次。 據Tom’s Hardware報導,Llama 3.1 405B模型訓練過程中共發生466次訓練中斷,其中47次是計畫性中斷,419次是意外中斷。計畫性中斷主要是因為自動化維護,而意外中斷多數是由硬體問題所引起。儘管如此,只有3起事件需要人為干預,其餘皆由系統自動處理。 Meta在研究論文中列出統計表格指出,在意外中斷中,有148次中斷是由NVIDIA的H100 GPU故障引起
………………………………