从Mooncake分离式大模型推理架构谈谈RDMA at Scale

zartbot · 公众号 · · 2024-12-03 07:37

文章预览

TL;DR 最近Mooncacke KV-Cache为中心的分离式大模型推理架构开源(github.com/kvcache-ai/Mooncake)了, 看了一下README意外的发现支持eRDMA, 谈谈个人的感想, 所有观点仅代表个人与作者任职的公司无关. 性能测试的Demo动画也是用eRDMA跑的问了一下eRDMA研发的同学们, 大家都说没有支持过他们, 其实这样一个能够自服务的产品就算成功了. 支持标准的RDMA Verbs RC生态, 同时又解决了大规模组网的问题, 用户不需要考虑繁琐的PFC/ECN参数配置, 这样就构建了一个自服务的RDMA网络, 并具备大规模部署的能力(这才是真正的RDMA At Scale). 同时它基于VPC FrontEnd网络, 这样不同种类的GPU(H20/L20)和CPU实例都可以通过RDMA进行大规模组网, 并充分满足客户多种模型对多种算力的需求. 在全球所有CSP中, 这是独一份. AWS SRD并不兼容标准的RC生态, 而Google的Falcon还没有完全落地,当前还有很多实例采用 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

哈尔滨日报 · 春节用气，注意安全——

21 小时前

哈尔滨日报 · 亚冬会冰上项目“运动员村”开村

昨天

哈尔滨日报 · 【冰城故事】一块冰的“72变”

2 天前

哈尔滨日报 · 注意！亚冬会火炬传递期间，这些路段通行有变——

2 天前

哈尔滨日报 · 韩国棋院就LG杯事件致歉！

4 天前

医业观察 · 肝功集采：再次报量

6 月前

新街派生活报 · 刚刚，确认提高！事关哈尔滨人的公积金！

5 月前