专栏名称: AI工程化
专注于AI领域(大模型、MLOPS/LLMOPS 、AI应用开发、AI infra)前沿产品技术信息和实践经验分享。
今天看啥  ›  专栏  ›  AI工程化

10万级 H100 集群:能源、网络拓扑、以太网与 InfiniBand、可靠性、故障、检查点

AI工程化  · 公众号  ·  · 2024-07-23 15:04

文章预览

主要内容: AI能力发展减缓 :自GPT-4以来,AI能力提升有限,尽管一些模型如Google的Gemini Ultra、Nvidia Nemotron 340B和Meta LLAMA 3在硬件上投入了类似或更多的FLOPS,但由于架构上的不足,未能实现能力上的突破。 大规模GPU集群的构建成本 :构建超过100,000个GPU集群成本超过40亿美元,并且受限于数据中心的容量和电力供应。100,000个 GPU集群需要超过150MW的数据中心容量和1.59 TWH的年电力消耗。 电力挑战 :当前没有单一的数据中心能够提供约150MW的部署容量,如超级计算机El Capitan仅需要30MW的电力。 网络拓扑和可靠性 :构建这些集群不仅仅是投入资金,还需要解决高组件故障率,尤其是网络方面的问题。集群可能 基于供应商偏好、工作负载和资本支出等考量, 采用不同的网络拓扑结构。 网络拓扑设计考虑 :大型GPU集群不会部署全fat tree架构,而是创建计算 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览