专栏名称: 梓豪谈芯
来,看点有营养又不一样的半导体讯息。作者吴梓豪,蓉合半导体CEO,前台积电fab3工程师,Arcotech创始人。
今天看啥  ›  专栏  ›  梓豪谈芯

Llama 3.1训练现高频故障 半数归咎英伟达的H100与HBM3

梓豪谈芯  · 公众号  ·  · 2024-09-10 23:34

文章预览

隨著大型語言模型( LLM)的反覆運算,其GPU用量也在不斷增長。Meta的Llama 1使用了2,028張GPU,而到了Llama 3.1 405B,AI GPU已經高達1萬6,384張,成為名副其實的「萬卡集群」。 不過,高達4,050億參數的LLM,也讓NVIDIA AI GPU面臨大考,規模如此龐大的運算系統出現了可靠性和運行方面的巨大挑戰,根據Meta最近公佈的研究顯示,在長達54天的訓練過程中,Llama 3.1訓練遇到了4百餘次意外零組件故障,平均每3小時發生一次。 據Tom’s Hardware報導,Llama 3.1 405B模型訓練過程中共發生466次訓練中斷,其中47次是計畫性中斷,419次是意外中斷。計畫性中斷主要是因為自動化維護,而意外中斷多數是由硬體問題所引起。儘管如此,只有3起事件需要人為干預,其餘皆由系統自動處理。 Meta在研究論文中列出統計表格指出,在意外中斷中,有148次中斷是由NVIDIA的H100 GPU故障引起 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览