注册
登录
专栏名称:
AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
【KeymouseGo:像按键精灵一样的自动 ...
·
昨天
宝玉xp
·
昨天改了一段 AI 生成的 React ...
·
3 天前
机器之心
·
Tokenization不存在了?Meta最 ...
·
3 天前
机器之心
·
哗然!MIT教授NeurIPS演讲公开歧视中 ...
·
5 天前
爱可可-爱生活
·
本文提出了一个名为TIME的框架,系统地研究 ...
·
5 天前
今天看啥
›
专栏
›
AI前线
训练一次经历 419 次意外故障!英伟达 GPU 也差点玩不转 405B 模型,全靠 Meta 工程师后天救场!
AI前线
·
公众号
·
AI
· 2024-07-29 13:16
文章预览
整理 | 华卫 最近,Meta 在一份研究报告中揭示了训练 Llama 3 405B 参数模型的重大挑战:该系统在包含 16384 个 Nvidia H100 GPU 的集群上运行,在训练期间平均每三个小时就发生一次故障, 54 天内经历了 419 次意外故障。 这些故障中,有一半以上的情况都归因于 GPU 及其高带宽内存 (HBM3)。由于 GPU 训练任务的规模庞大和高度同步,Llama 3 很容易发生故障,且单个 GPU 故障就会中断整个训练过程,导致必须重新启动。 不过,据介绍,尽管存在这些问题,Llama 3 团队仍在支持自动化集群维护(例如固件和 Linux 内核升级)的同时,实现了超过 90% 的有效训练时间(有效训练时间是指实际用于有用训练的时间与经过时间的比例)。 正如一句古老的超级计算谚语所言,“大规模系统唯一可以确定的就是失败。”超级计算机是极其复杂的设备,使用数万个处理器 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
【KeymouseGo:像按键精灵一样的自动化操作软件,能记录你-20241219194449
昨天
宝玉xp
·
昨天改了一段 AI 生成的 React 代码,结果怎么也不起作用-20241218004922
3 天前
机器之心
·
Tokenization不存在了?Meta最新研究,无需Tokenizer的架构来了
3 天前
机器之心
·
哗然!MIT教授NeurIPS演讲公开歧视中国学生,大会官方认错、本人道歉
5 天前
爱可可-爱生活
·
本文提出了一个名为TIME的框架,系统地研究了时间模型融合,发现-20241215071808
5 天前