主要观点总结
文章主要分析了Nvidia下一代Rubin如何实现288卡的ScaleUP互联,并探讨了其架构的可靠性及稳定性问题。文章还涉及了渣哥对Rubin架构的专业解读和个人推测。
关键观点总结
关键观点1: Nvidia下一代Rubin的互联方案分析
文章介绍了渣哥对Rubin 288卡方案的专业分析,包括高密度互联设计、无中背板结构、正交放置业务节点和交换节点等。
关键观点2: 电信级设备的历史经验和教训
文章引用了电信设备的历史经验和教训,强调了无背板无CableTray正交直接互联架构的优越性,并指出了NVL72铜互联背板可能存在的问题。
关键观点3: 散热和供电问题的解决方案
文章讨论了HPE Cray的机柜散热和供电解决方案,并推测Rubin的288卡架构可能在NVL72的基础上密度翻倍,并采用双机柜并柜的方式部署。
关键观点4: 互联架构的推测
文章推测Rubin的ComputeTray和SwitchTray采用正交的方式构建,并讨论了其好处,如N+1的冗余、热插拔、性能下降小等。
关键观点5: 非NV架构的讨论
文章还涉及了非NV架构的讨论,包括UEC和UALink的问题,如何通过Ethernet构建ScaleUP,以及ScaleUp/ScaleOut/FrontEnd三网融合的观点等。
文章预览
TL;DR 昨天上传了 rubin next 288 卡方案之后,渣哥就帮我们写了篇专业分析!感谢渣哥! 对于一个长期搞电信级设备的渣B, 来谈谈Nvidia下一代Rubin如何能够做到288卡的ScaleUP互联.其实在介绍Blackwell的架构时已经写过一篇文章: 《英伟达GB200架构解析1: 互联架构和未来演进》 通常在高密度互联的设计时, 都会采用无中背板的结构, 将业务节点和交换节点正交放置. 例如思科在互联网泡沫后期发布的CRS-1, 几乎所有的电信级的设备都采用这样的无中背板正交放置的结构, 散热通风容易,故障率也更低. 其实这些技术在超算领域也非常成熟了,例如Cray的机柜互联结构 所有的连接器都在交换板或者计算板上, 因此就无需现在NVL72的铜互联背板了. 其实NVL72的铜互联背板很有可能对NV Blackwell整个系列是一个很大的灾难, 系统可靠性会非常差, 即便是现在说它的一些问题已经
………………………………