文章预览
点击蓝字 关注我们 微软的 Zaid Kahn ,云计算 AI 和高级系统副总裁,在 AI Hardware Summit 上就 AI 集群扩展到数万个加速器及更大规模时所面临的挑战进行了精彩的演讲。他认为下一代系统需要新的系统架构、垂直电源传递、互连创新和新的高级冷却技术。 微软在过去六个月内将其超级计算能力提高了超过 30 倍。 模型训练的计算需求与关键基础设施之间存在日益扩大的差距,训练计算量每年增长 4.2 倍,而内存带宽增长 1.26 倍,互连带宽增长 1.18 倍。 来源: Microsoft 为了突破性能上的差距,需要系统创新。这涉及到从 AI 芯片、冷却系统、网络等多个方面的垂直优化。此外,软硬件的共同设计也非常重要。 来源: Microsoft 到 2026 年,全球数据中心的能源需求预计约为 800 太瓦时,最高会超过 1000 太瓦时,最低约为 650 太瓦时。 需要的关键突破包括先进的
………………………………