专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?

新智元  · 公众号  · AI  · 2024-08-01 12:40
    

文章预览

   新智元报道   编辑:编辑部 【新智元导读】 是时候用CPU通用服务器跑千亿参数大模型了! 马斯克19天建成由10万块H100串联的世界最大超算,已全力投入Grok 3的训练中。 与此同时,外媒爆料称,OpenAI和微软联手打造的下一个超算集群,将由10万块GB200组成。 在这场AI争霸赛中,各大科技公司们卯足劲加大对GPU的投资,似乎在暗示着拥有更多、更强大的GPU,就能让自己立于不败之地。 然而,这种对高端GPU的狂热追求,并非在所有情况下,都是完美无缺的解决方案。 Pytorch之父表示,技术报告中暗藏了很多基础设施的有趣细节,包括如何并行化,如何让系统更可靠等等 就拿稳定性来说,在Llama 3.1训练的54天里,Meta的1.6万块H100集群总共遇到了419次意外中断,相当于平均每3小时发生一次。 而在这之中,有148次(30.1%)是由于各种GPU故障引起的。 相比 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览