专栏名称: zartbot
随便记录点有趣的东西
今天看啥  ›  专栏  ›  zartbot

HotChip2024后记: 谈谈加速器互联及ScaleUP为什么不能用RDMA

zartbot  · 公众号  ·  · 2024-08-30 19:46

文章预览

TL;DR 专门写一篇来谈谈HotChip 2024介绍的这些AI加速器的互联系统, 各家在互联上的设计有很多不同 从 传输语义 的视角, 使用Ethernet互联的厂家中, 有RDMA这种 消息语义 的MAIA 100和Gaudi3, 也有直接 内存语义 的Tesla TTP及用RingBuffer的Testorrent. 从 网络融合 的视角, 有ScaleUP和ScaleOut融合的Microsoft MAIA 100, 也有支持有损FrontEnd和ScaleOut融合的Tesla TTPoE. 其实你仔细看Tesla是完全实现了ScaleUP/ScaleOut/FrontEnd三网融合的技术, 并且支持租户隔离, 这也是我一直以来的技术观点, 并且在NetDAM上和Tesla基本同一时期实现的(都在2020年~2021年期间实现的). 不同的设计带来不同的观点和争议, 但是很多观点都是相对片面的, 例如不讨论AI加速器的微架构谈互联协议, 或者不考虑实际的应用场景和业务特性而简单的把A技术应用到B场景, 例如直接把ScaleOut RoCE带宽做大是否能替代ScaleUP? 本文 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览