文章预览
架构师(JiaGouX) 我们都是架构师! 架构未来,你来不来? Disclaimer: 和论文不同本文夹带过量私货个人观点,不代表本人单位更不代表 Moonshot,纯技术讨论。 正文 Mooncake 是由月之暗面创建的超人气智能助手 Kimi的底层推理平台。 本系列则是对应技术报告的 插科打诨 浓缩版介绍。和强调 inclusion 四平八稳啥都讲一点的论文格式不同,这里更多的是想讨论一些当前还未形成共识的一些 design choice (私货警告)。 特别的本篇主要讨论 Mooncake 的分离式架构,讨论点包括但不限于 TBT or TPOT,Prefill 节点应不应当独立存在以及独立的话如何多节点并行处理,KVCache cache 全局调度的原理和调度策略,Decode 还能不能进一步分离等等。 总体架构 Mooncake 的架构是 非常典型的 分离式架构 ,将单个同构 GPU 集群的资源打散并重新组织成三个可以独立弹性伸缩的资源
………………………………