专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

有钱买卡还不够,10万卡H100集群有多难搭?一文解析算力集群技术要点

新智元  · 公众号  · AI  · 2024-06-23 12:32
    

文章预览

   新智元报道   编辑:乔杨 好困 【新智元导读】 在英伟达市值猛涨、各家科技巨头囤芯片的热潮中,我们往往会忽视GPU芯片是如何转变为数据中心算力的。最近,一篇SemiAnalysis的技术文章就深入解读了10万卡H100集群的构建过程。 如火如荼的AI竞争中,「算力之战」同样热火朝天。 包括但不限于OpenAI、微软、xAI和Meta在内的多个头部公司都在争相建立超过10万卡的GPU集群,在这个规模上,仅仅是服务器的成本就超过40亿美元,还要受到数据中心容量和电力不足等多项因素的限制。 我们可以做一个简单的估算,一个10万卡集群每年耗电量约为1.59太瓦时(terawatt·h,即10e9千瓦时),按照美国电力的标准费率0.78美元/千瓦时,每年的用电成本就达到了1.24亿美元。 为了说明10万个GPU集群的强大计算能力,OpenAI在训练GPT-4时使用了大约2.15e25 BF16 FLOP(21.5百万 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览