专栏名称: 架构师
架构师云集,三高架构(高可用、高性能、高稳定)、大数据、机器学习、Java架构、系统架构、大规模分布式架构、人工智能等的架构讨论交流,以及结合互联网技术的架构调整,大规模架构实战分享。欢迎有想法、乐于分享的架构师交流学习。
今天看啥  ›  专栏  ›  架构师

Mooncake : Kimi 以 KVCache 为中心的分离式推理架构

架构师  · 公众号  ·  · 2024-07-02 22:28

文章预览

架构师(JiaGouX) 我们都是架构师! 架构未来,你来不来? Disclaimer: 和论文不同本文夹带过量私货个人观点,不代表本人单位更不代表 Moonshot,纯技术讨论。 正文 Mooncake 是由月之暗面创建的超人气智能助手 Kimi的底层推理平台。 本系列则是对应技术报告的 插科打诨 浓缩版介绍。和强调 inclusion 四平八稳啥都讲一点的论文格式不同,这里更多的是想讨论一些当前还未形成共识的一些 design choice (私货警告)。 特别的本篇主要讨论 Mooncake 的分离式架构,讨论点包括但不限于 TBT or TPOT,Prefill 节点应不应当独立存在以及独立的话如何多节点并行处理,KVCache cache 全局调度的原理和调度策略,Decode 还能不能进一步分离等等。 总体架构 Mooncake 的架构是 非常典型的 分离式架构 ,将单个同构 GPU 集群的资源打散并重新组织成三个可以独立弹性伸缩的资源 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览