文章预览
TL;DR 对于一个长期搞电信级设备的渣B, 来谈谈Nvidia下一代Rubin如何能够做到288卡的ScaleUP互联.其实在介绍Blackwell的架构时已经写过一篇文章: 《英伟达GB200架构解析1: 互联架构和未来演进》 通常在高密度互联的设计时, 都会采用无中背板的结构, 将业务节点和交换节点正交放置. 例如思科在互联网泡沫后期发布的CRS-1, 几乎所有的电信级的设备都采用这样的无中背板正交放置的结构, 散热通风容易,故障率也更低. 其实这些技术在超算领域也非常成熟了,例如Cray的机柜互联结构 所有的连接器都在交换板或者计算板上, 因此就无需现在NVL72的铜互联背板了. 其实NVL72的铜互联背板很有可能对NV Blackwell整个系列是一个很大的灾难, 系统可靠性会非常差, 即便是现在说它的一些问题已经解决了, 但是个人觉得它在上线运行部署的过程中肯定还会遇到更多的稳定性的问
………………………………