专栏名称: zartbot
随便记录点有趣的东西
今天看啥  ›  专栏  ›  zartbot

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

zartbot  · 公众号  ·  · 2024-12-03 07:37
    

文章预览

TL;DR 最近Mooncacke KV-Cache为中心的分离式大模型推理架构开源(github.com/kvcache-ai/Mooncake)了, 看了一下README意外的发现支持eRDMA, 谈谈个人的感想, 所有观点仅代表个人与作者任职的公司无关. 性能测试的Demo动画也是用eRDMA跑的 问了一下eRDMA研发的同学们, 大家都说没有支持过他们, 其实这样一个能够自服务的产品就算成功了.   支持标准的RDMA Verbs RC生态, 同时又解决了大规模组网的问题, 用户不需要考虑繁琐的PFC/ECN参数配置, 这样就构建了一个自服务的RDMA网络, 并具备大规模部署的能力(这才是真正的RDMA At Scale). 同时它基于VPC FrontEnd网络, 这样不同种类的GPU(H20/L20)和CPU实例都可以通过RDMA进行大规模组网, 并充分满足客户多种模型对多种算力的需求. 在全球所有CSP中, 这是独一份. AWS SRD并不兼容标准的RC生态, 而Google的Falcon还没有完全落地,当前还有很多实例采用 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览