专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

全球最大AI超算内部首次曝光!马斯克19天神速组装10万块H100,未来规模还将扩大一倍

极市平台  · 公众号  · 科技创业 科技自媒体  · 2024-10-31 22:00
    

主要观点总结

文章介绍了全球最大AI超算Colossus的相关细节,包括其创新设计、建造者、规模、网络系统等。文章还详细描述了Colossus的液冷机架和网络系统的设计和优势。

关键观点总结

关键观点1: 全球最大AI超算Colossus的介绍

Colossus是由xAI和英伟达联手建造,耗资数十亿,配备了10万个英伟达Hopper GPU,未来规模还将扩大一倍。

关键观点2: Colossus的液冷机架设计

每个机架包含八台4U服务器,每台服务器配备八个英伟达H100 GPU。这些机架以八台为一组排列,形成GPU计算机架。Supermicro为液冷设计了定制模块,使系统具有出色的可维护性。

关键观点3: Colossus的网络系统设计

Colossus使用了高速以太网技术,每条光纤连接速率为400GbE,远超常见家庭网络速度。GPU的RDMA网络构成了带宽的大部分,每个GPU都有自己的NIC。此外,xAI为其GPU和集群的其余部分分别配置了独立的网络,这是高性能计算集群中的常见设计。


文章预览

↑ 点击 蓝字  关注极市平台 来源丨新智元 极市导读   一文揭秘全球最大AI超算,解析液冷机架和网络系统的创新设计。这台全球最大AI超算Colossus由xAI和英伟达联手建造,耗资数十亿,10万块H100仅半个多月搭建完成,未来规模还将扩大一倍!   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 两个月前,马斯克才刚刚自曝了xAI的Colossus超算,称其是世界上最强大的AI训练系统。 最近,马斯克又宣布了一条振奋人心的消息——集群即将扩展到20万张H100/H200显卡! 同时,ServeTheHome也发布了一条15分钟的视频,公布了这台超算的详情! ,时长 14:56 来自ServeTheHome的Patrick Kennedy带着摄影机探访了这台超级计算机 这台全球最大的AI超级计算机Colossus位于美国田纳西州孟菲斯,配备了10万个英伟达Hopper GPU,并由英伟达Spectrum-X以太网提供网络传输支持。 目前, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览