今天看啥  ›  专栏  ›  智能计算芯世界

超万卡集群的核心设计原则和总体架构

智能计算芯世界  · 公众号  ·  · 2024-05-26 07:22
当前,超万卡集群的建设仍处于起步阶段,主要依赖英伟达GPU及配套设备实现。英伟达作为全球领先的GPU供应商,其产品在大模型训练上有较大优势。得益于政策加持和应用驱动,国产AI芯片在这两年取得长足进步,但在整体性能和生态构建方面仍存在一定差距。构建一个基于国产生态体系、技术领先的超万卡集群仍面临诸多挑战。随着大模型从千亿参数的自然语言模型向万亿参数的多模态模型升级演进,超万卡集群亟需全面提升底层计算能力。具体而言,包括增强单芯片能力、提升超节点计算能力、基于DPU实现多计算能力融合以及追求极致算力能效比,具体参阅文章“超万卡训练集群互联关键技术”。1、超万卡集群核心设计原则在大算力结合大数据生成大模型的发展路径下,超万卡集群的搭建不是简简单单的算力堆叠,要让数万张GPU卡像一台“ ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照