今天看啥  ›  专栏  ›  硅星人Pro

全球最大AI超算内部首次曝光!马斯克19天神速组装10万块H100,未来规模还将扩大一倍

硅星人Pro  · 公众号  · 科技媒体  · 2024-11-01 09:49
    

主要观点总结

本文介绍了马斯克旗下的xAI推出的全球最大AI超级计算机Colossus的相关细节。Colossus配备了大量英伟达显卡,并采用了先进的液冷技术和以太网传输支持。该超级计算机正在用于训练大规模的AI模型,如Grok,并提供了强大的网络性能。此外,文章还介绍了Colossus集群的构建单元、网络系统和关键部件的设计特点。

关键观点总结

关键观点1: Colossus成为全球最大的AI超级计算机

马斯克宣布了集群扩展计划,包括新增的H100和H200显卡,Colossus位于美国田纳西州孟菲斯,配备了英伟达的Hopper GPU和网络支持。

关键观点2: Colossus在AI训练上的出色表现

Colossus用于训练xAI的Grok模型,展现了前所未有的网络性能,在网络结构的所有层级中,系统在流量冲突的情况下没有经历任何应用延迟降级或数据包丢失。

关键观点3: Supermicro液冷机架的技术特点

每个机架包含八台服务器,每台服务器配备八个英伟达H100 GPU。这些机架通过网络连接形成小型集群,并通过液冷技术实现高效的冷却和可维护性。

关键观点4: Colossus的网络系统特点

Colossus的网络系统采用了高速的400GbE光纤连接,每个系统拥有多条这样的连接,提供了超高的带宽和传输速度。此外,该网络系统的RDMA网络为GPU提供了高效的数据传输能力。


文章预览

文章转载于新智元 两个月前,马斯克才刚刚自曝了xAI的Colossus超算,称其是世界上最强大的AI训练系统。 最近,马斯克又宣布了一条振奋人心的消息——集群即将扩展到20万张H100/H200显卡! 同时,ServeTheHome也发布了一条15分钟的视频,公布了这台超算的详情! 来自ServeTheHome的Patrick Kennedy带着摄影机探访了这台超级计算机 这台全球最大的AI超级计算机Colossus位于美国田纳西州孟菲斯,配备了10万个英伟达Hopper GPU,并由英伟达Spectrum-X以太网提供网络传输支持。 目前,Colossus的第一阶段建设已完成,集群全面上线,但这并不是终点。它将很快迎来升级,GPU容量将翻倍,新增5万块H100 GPU和5万块下一代H200 GPU。 Colossus正在用于训练xAI的Grok,并为X Premium订阅用户提供聊天机器人功能。 在训练超大规模的Grok时,Colossus展现了前所未有的网络性能。在网络结构的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览