文章预览
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~ 来源:内容由半导体行业观察(ID: ic bank)编译自meta,谢谢。 Meta近日撰文称,人工智能的日益普及开启了通信需求的新时代。尤其是分布式训练,给数据中心网络基础设施带来了最大的压力。例如,典型的生成式人工智能 (GenAI) 作业可能需要在数周内紧密协调数万个 GPU。构建能够满足这一日益增长的需求的可靠、高性能网络基础设施需要重新评估数据中心网络设计。 当 Meta 引入基于 GPU 的分布式训练时,我们决定为这些 GPU 集群构建专门的数据中心网络。我们选择 RDMA Over Converged Ethernet 第 2 版 (RoCEv2) 作为我们大部分 AI 容量的节点间通信传输。 我们已成功扩展 RoCE 网络,从原型发展到部署多个集群,每个集群可容纳数千个 GPU。这些 RoCE 集群支持广泛的生产分布式 GPU 训练作业,包括排名、内容
………………………………