专栏名称: SSDFans
AI+IOT+闪存,万物存储、万物智能、万物互联的闪存2.0时代即将到来,你,准备好了吗?
今天看啥  ›  专栏  ›  SSDFans

弹性人工智能:构建容错AI系统——Meta

SSDFans  · 公众号  ·  · 2024-10-23 07:57
    

文章预览

点击蓝字 关注我们 Meta 基础设施副总裁 Dan Rabinovitsj 做了一个关于构建容错 AI 集群和用于训练 Llama 3.1 的集群行为的演讲。他强调了人工智能集群的扩展挑战,硬件故障和无声数据损坏导致的非线性退化需要实时诊断和容错改进。 Meta 使用了 16K H100 GPU 来训练其 Llama 3.1 集群。用于训练这些集群的基础设施变得越来越复杂,并且随着规模的扩大更容易出现故障。 GPU 吞吐量不是线性扩展的,因为更多的 GPU 意味着更多的故障。 Meta 专注于有效的训练时间。 传统的服务器架构需要几天的时间来修复组件,而在人工智能训练基础设施中,故障的影响是严重的,突然的非线性退化特征需要在几小时或几分钟内进行修复。 来源: Meta 71% 的中断最初是硬件故障 ——35% 是由于 GPU 故障, 17% 是由于 HBM3 内存故障。 Meta 已经能够将这个数字降至 55% ( 28% 的 GPU ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览