文章预览
TL;DR 第二日的亮点也很多,特别是Tesla, Tesla的传输协议TTPoE, 借助 iWARP的TCP拥塞控制机制 和 RoCEv1二层转发 构建了基于以太网Lossy的转发. 他们这次讲的非常清楚,而且还可以FrontEnd和ScaleOut混跑, 唯一就是多路径上还有点问题要处理一下就好了, 这个话题后面会单独再开一篇来详细探讨. 其它几家的概述如下. Azure Maia 100 和Meta MTIA这两个云上用的AI加速器 AMD Versal继续在推AIE-ML v2 Cerebras WSE-3,谈了谈部署的集群, 然后架构上没啥变化.然后也开始卷推理服务了 Stanford的稀疏张量处理器Onyx,有点意思, 值得后面单独分析一下 Intel谈了一下CPO Enfabrica也讲了一下它的Fabric,言之无物的感觉. 针对HPC应用的MN-Core 2有点意思,主要是NOC上的bcast和reduce CPU则是 Ampere, AMD Zen5, 国内的香山RISC-V等几颗处理器, 后面再单独谈 1. Tesla TTPoE for Lossy Fabric 这次HC2024最想听的就是Nv Blackwell和T
………………………………