专栏名称: 芯师爷
最及时且有深度的半导体新媒体。每日解读半导体科技最新资讯、发展趋势、技术前沿信息,分享产业研究报告,并打造中国最大的半导体社群与生态圈,欢迎加入半导体专业人士的圈子!旗下媒体:今日芯闻、全球物联网观察、机器人文明。
今天看啥  ›  专栏  ›  芯师爷

【深度万文】10 万卡 H100 集群的尽头……

芯师爷  · 公众号  ·  · 2024-07-23 18:20

文章预览

本文转载自DETACHED UNCLE ,作者糊涂大叔at GPT-4 在约 2 万块 A100 上训练 90-100 天,如果利用 10 万卡的 H100 集群,则仅仅需要 4 天时间。 微软/OpenAI、Meta、xAI 都在集中建设 10 万卡 H100 集群,单是硬件投入就高达 40 亿美金,单集群就需要 150 MW 的功耗,每年的电力成本 1.239 亿美金,约占硬件投入成本的 3%。 10 万卡 H100 集群的尽头还远不是电力。在算力组网时,为了避免缴纳更多的英伟达税,越来越多的头部客户正在摒弃 Infiniband 方案,而选择以太网方案。除了在初始硬件投入就能节约 4 亿美金之外,每年还能进一步节约 400多万美金的电费。 全文 13000 字,建议先收藏,再细看。 有人认为,自 GPT-4 发布以来,LLM 的能力便一直停滞不前。之所以如此,是因为没有人能够大规模地提高专用于单个模型训练的算力。已发布的模型的体量与 GPT-4 大致相当(约 2 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览