Kimi论文自曝推理架构，80%流量都靠它承担

量子位 · 公众号 · AI · 2024-07-04 17:46

主要观点总结

本文介绍了Kimi背后的推理架构Mooncake的设计特点和优化策略。Mooncake采用了分离式的设计方案，主要围绕KV缓存展开，以应对大模型中的推理速度和计算资源消耗问题。文章详细描述了Mooncake的调度策略、计算流程、KV缓存池的作用以及RDMA通信组件的优势。此外，文章还介绍了团队如何应对超大流量和过载场景的策略，包括早期拒绝策略和基于预测的早期拒绝策略。实验结果表明，Mooncake的架构设计和优化策略有效提高推理服务性能，尤其在长上下文和真实场景下优势显著。

关键观点总结

关键观点1: Kimi背后的推理架构名为Mooncake，主要特点是采取了分离式的设计方案。

Mooncake考虑了大流量场景并专门研发，能够在模拟场景下带来高吞吐量增长，并在实际场景中处理更多请求。

关键观点2: Mooncake系统设计的核心是围绕KV缓存展开的，旨在提高大模型中的推理速度和减少计算资源消耗。

KV缓存用于存储键-值对，可以简单高效地访问和检索数据。

关键观点3: Mooncake的调度策略包括全局调度器、Prefill节点集群、Decoding节点集群以及RDMA通信组件等部分。

调度器负责接收请求并根据KV缓存分布和负载情况调度请求，采用启发式自动热点迁移策略。

关键观点4: Mooncake采用了基于预测的早期拒绝策略来解决过载场景的问题。

该策略通过预测Decoding节点的负载情况来提前拒绝请求，从而减少无效的Prefill计算并提高资源利用率。

关键观点5: 实验结果表明，Mooncake的架构设计和优化策略有效提高了推理服务性能。

在ArXiv Summarization和L-Eval数据集上，Mooncake的吞吐量比baseline方法有所提高。

文章预览

克雷西发自凹非寺量子位 | 公众号 QbitAI 月之暗面和清华KVCache.ai团队的最新论文，首次揭秘了 Kimi背后的推理架构！要知道Kimi是国产大模型的当红炸子鸡，火到可以说从来没缺过流量，甚至还经常出现过载。而随着论文的发布，这泼天的流量到底如何被Kimi接住的问题，也有了答案。 Kimi背后的推理架构名叫 Mooncake （月饼），主要特点是采取了分离式的设计方案。而且，Mooncake在设计之时就考虑了可能出现的大流量场景，并针对这种情况专门研发。在模拟场景下，Mooncake最高能带来 525%的吞吐量增长，实际场景中也能多处理75%请求。另据月之暗面工程副总裁许欣然的一篇知乎文章介绍， Kimi有80%以上的流量，都是由该系统承接。从KV缓存出发，建造分布式系统整个Mooncake系统设计的核心，是围绕着 KV缓存展开的。（KV缓存用于存储键-值 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博