专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

GPU训Llama 3.1疯狂崩溃，竟有大厂用CPU服务器跑千亿参数大模型？

新智元 · 公众号 · AI · 2024-08-01 12:40

文章预览

新智元报道编辑：编辑部【新智元导读】是时候用CPU通用服务器跑千亿参数大模型了！马斯克19天建成由10万块H100串联的世界最大超算，已全力投入Grok 3的训练中。与此同时，外媒爆料称，OpenAI和微软联手打造的下一个超算集群，将由10万块GB200组成。在这场AI争霸赛中，各大科技公司们卯足劲加大对GPU的投资，似乎在暗示着拥有更多、更强大的GPU，就能让自己立于不败之地。然而，这种对高端GPU的狂热追求，并非在所有情况下，都是完美无缺的解决方案。 Pytorch之父表示，技术报告中暗藏了很多基础设施的有趣细节，包括如何并行化，如何让系统更可靠等等就拿稳定性来说，在Llama 3.1训练的54天里，Meta的1.6万块H100集群总共遇到了419次意外中断，相当于平均每3小时发生一次。而在这之中，有148次（30.1%）是由于各种GPU故障引起的。相比 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【[26星]Easy MCP：将OpenAPI规范轻松转换为MC-20250527135723

昨天

爱可可-爱生活 · 【[132星]StableGen：在Blender中直接使用生成-20250527135813

昨天

黄建同学 · 这个聚合不错//@L7ink:好东西，就是这四个库来回切换看太麻-20250526214552

2 天前

人工智能那点事 · 9:0！

2 天前

爱可可-爱生活 · 【[279星]k8m：一款轻量级、跨平台的Mini Kubern-20250526140345

2 天前

波元霸 · 别跟我扯

11 月前

小米汽车 · 大雪中的小米SU7 Ultra太空银，有不一样的浪漫氛围👍-20250305141943

2 月前