专栏名称: 芯东西
芯东西专注报道芯片、半导体产业创新,尤其是以芯片设计创新引领的计算新革命和国产替代浪潮;我们是一群追“芯”人,带你一起遨游“芯”辰大海。
今天看啥  ›  专栏  ›  芯东西

智算集群基础架构、国产化方案及发展趋势|公开课预告

芯东西  · 公众号  ·  · 2024-10-18 12:18

文章预览

随着人工智能技术的快速发展,尤其是大模型参数规模的持续增加,算力需求呈爆发式增长,对AI算力基础设施也提出了更高的要求,并进一步推动了智算集群的兴起。 在国际市场, Google推出了拥有26000块NVIDIA H100 GPU的超级计算机A3 Virtual Machines,同时基于自研芯片搭建TPUv5p 8960卡集群。Meta在2022年推出了拥有16000块NVIDIA A100 的AI研究超级集群,2024年初又公布2个包含24576块NVIDIA H100的集群,用于支持下一代生成式AI模型的训练。马斯克xAI团队拥有10万块H100的Colossus集群已经上线,也是目前全球最强的智算集群,而未来规模还要翻一倍,扩展到15万张H100+5万张H200。 在国内,字节跳动搭建了一个12288卡Ampere架构训练集群,研发MegaScale生产系统用于训练大语言模型。科大讯飞在2023 年建成首个支持大模型训练的国产万卡智能算力集群“飞星一号”。中国移动近 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览