今天看啥  ›  专栏  ›  zartbot

[Sigcomm论文解析] Llama 3训练RoCE网络

zartbot  · 公众号  ·  · 2024-08-05 19:05

文章预览

这周悉尼正在开的Sigcomm上, Meta有一篇论文 《RDMA over Ethernet for Distributed AI Training at Meta Scale》 [1] 详细介绍了它的物理网络部署和相关的拥塞控制机制. 本文来对它进行一些详细的解读. TL;DR 0.1 先谈谈学术界和工业界的差距 Sigcomm虽然也号称顶会了, 但是 工业界和学术界的差距是非常大 的, 即便是工业界用网络的客户和设备网络研发的技术差距也是非常巨大的, 例如长期针对网络协议和网络芯片架构进行协同设计的架构师和网络运维相关的工程师的差距, 例如渣这种在思科搞过最核心的转发芯片相关工作的来看, 真正顶级的工作拿来发论文? 你搞笑么? 有些东西连专利都不会写的. 举个不太涉密的例子吧, Google今年Sigcomm的 《A Decentralized SDN Architecture for the WAN》 [2] . 实际上这些工作还远没达到我2018年做的Nimble Network和后面Ruta Disaggregation Routing System的水平, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览