注册
登录
专栏名称:
机器学习研究组订阅
连接人工智能技术人才和产业人才的交流平台
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
【Awesome-Efficient-MoE ...
·
2 天前
爱可可-爱生活
·
【tex-fmt:一个用Rust编写的超高性 ...
·
2 天前
爱可可-爱生活
·
【Electrobun:新型跨平台桌面应用开 ...
·
3 天前
黄建同学
·
#英伟达##英伟达Blackwell芯片已全 ...
·
4 天前
爱可可-爱生活
·
【Photoshop与AI绘画工具桥梁:sd ...
·
6 天前
今天看啥
›
专栏
›
机器学习研究组订阅
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
机器学习研究组订阅
·
公众号
·
AI
· 2024-08-01 16:58
文章预览
马斯克19天建成由10万块H100串联的世界最大超算,已全力投入Grok 3的训练中。 与此同时,外媒爆料称,OpenAI和微软联手打造的下一个超算集群,将由10万块GB200组成。 在这场AI争霸赛中,各大科技公司们卯足劲加大对GPU的投资,似乎在暗示着拥有更多、更强大的GPU,就能让自己立于不败之地。 然而,这种对高端GPU的狂热追求,并非在所有情况下,都是完美无缺的解决方案。 Pytorch之父表示,技术报告中暗藏了很多基础设施的有趣细节,包括如何并行化,如何让系统更可靠等等 就拿稳定性来说,在Llama 3.1训练的54天里,Meta的1.6万块H100集群总共遇到了419次意外中断,相当于平均每3小时发生一次。 而在这之中,有148次(30.1%)是由于各种GPU故障引起的。 相比之下,由CPU故障引发的中断,只有2次。 另一方面,想要把Llama 3.1 405B跑起来,还得搭配2台8×H100 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
【Awesome-Efficient-MoE:专注于高效混合专家-20241123160520
2 天前
爱可可-爱生活
·
【tex-fmt:一个用Rust编写的超高性能LaTeX代码格式-20241123160751
2 天前
爱可可-爱生活
·
【Electrobun:新型跨平台桌面应用开发框架,使用Type-20241122200112
3 天前
黄建同学
·
#英伟达##英伟达Blackwell芯片已全面投产#国外分析师B-20241121092656
4 天前
爱可可-爱生活
·
【Photoshop与AI绘画工具桥梁:sd-ppp,让你在Ph-20241119140318
6 天前