文章预览
TL;DR 最近Mooncacke KV-Cache为中心的分离式大模型推理架构开源(github.com/kvcache-ai/Mooncake)了, 看了一下README意外的发现支持eRDMA, 谈谈个人的感想, 所有观点仅代表个人与作者任职的公司无关. 性能测试的Demo动画也是用eRDMA跑的 问了一下eRDMA研发的同学们, 大家都说没有支持过他们, 其实这样一个能够自服务的产品就算成功了. 支持标准的RDMA Verbs RC生态, 同时又解决了大规模组网的问题, 用户不需要考虑繁琐的PFC/ECN参数配置, 这样就构建了一个自服务的RDMA网络, 并具备大规模部署的能力(这才是真正的RDMA At Scale). 同时它基于VPC FrontEnd网络, 这样不同种类的GPU(H20/L20)和CPU实例都可以通过RDMA进行大规模组网, 并充分满足客户多种模型对多种算力的需求. 在全球所有CSP中, 这是独一份. AWS SRD并不兼容标准的RC生态, 而Google的Falcon还没有完全落地,当前还有很多实例采用
………………………………