专栏名称: 江大白
专业有趣的AI内容平台,关注后回复【算法】,获取45家大厂的《人工智能算法岗江湖武林秘籍》
今天看啥  ›  专栏  ›  江大白

手把手教你搭建10万卡GPU集群

江大白  · 公众号  ·  · 2024-07-22 08:00
    

文章预览

以下 文 章来源于微信公众号: 竹子的响声 编辑: Ray(任老板) 链接: https://www.semianalysis.com/p/100000-h100-clusters-power-network 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 随着 各类大模型如雨后春笋般出现,科技公司对 AI 算力的需求也呈爆发式增长。 本文介绍一种通过内存重构来 搭建10万卡GPU集群的方法,从而进一步进行 故障恢复、机架布局,希望对读者有所帮助。 前言 为什么要建设10万卡集群,这里不说了,反正人家都在建,当前AI公司第一梯队的门票是3.2万卡集群,明年第一梯队的门票可能会提升到10万卡(H100)集群。 一个10万张H100构成的AI集群功耗约为150MW,资本开支超过40亿美金(300亿人民币),每年耗能1.59 TWh(1.59 *  10e9千瓦时 )。如果按0.078美元/kWh的标准费率测算,每年电费就得1.24亿美金。 挑战 (1)能源跟空间挑 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览