文章预览
TL;DR 专门写一篇来谈谈HotChip 2024介绍的这些AI加速器的互联系统, 各家在互联上的设计有很多不同 从 传输语义 的视角, 使用Ethernet互联的厂家中, 有RDMA这种 消息语义 的MAIA 100和Gaudi3, 也有直接 内存语义 的Tesla TTP及用RingBuffer的Testorrent. 从 网络融合 的视角, 有ScaleUP和ScaleOut融合的Microsoft MAIA 100, 也有支持有损FrontEnd和ScaleOut融合的Tesla TTPoE. 其实你仔细看Tesla是完全实现了ScaleUP/ScaleOut/FrontEnd三网融合的技术, 并且支持租户隔离, 这也是我一直以来的技术观点, 并且在NetDAM上和Tesla基本同一时期实现的(都在2020年~2021年期间实现的). 不同的设计带来不同的观点和争议, 但是很多观点都是相对片面的, 例如不讨论AI加速器的微架构谈互联协议, 或者不考虑实际的应用场景和业务特性而简单的把A技术应用到B场景, 例如直接把ScaleOut RoCE带宽做大是否能替代ScaleUP? 本文
………………………………