专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

Kimi论文自曝推理架构,80%流量都靠它承担

量子位  · 公众号  · AI  · 2024-07-04 17:46
    

主要观点总结

本文介绍了Kimi背后的推理架构Mooncake的设计特点和优化策略。Mooncake采用了分离式的设计方案,主要围绕KV缓存展开,以应对大模型中的推理速度和计算资源消耗问题。文章详细描述了Mooncake的调度策略、计算流程、KV缓存池的作用以及RDMA通信组件的优势。此外,文章还介绍了团队如何应对超大流量和过载场景的策略,包括早期拒绝策略和基于预测的早期拒绝策略。实验结果表明,Mooncake的架构设计和优化策略有效提高推理服务性能,尤其在长上下文和真实场景下优势显著。

关键观点总结

关键观点1: Kimi背后的推理架构名为Mooncake,主要特点是采取了分离式的设计方案。

Mooncake考虑了大流量场景并专门研发,能够在模拟场景下带来高吞吐量增长,并在实际场景中处理更多请求。

关键观点2: Mooncake系统设计的核心是围绕KV缓存展开的,旨在提高大模型中的推理速度和减少计算资源消耗。

KV缓存用于存储键-值对,可以简单高效地访问和检索数据。

关键观点3: Mooncake的调度策略包括全局调度器、Prefill节点集群、Decoding节点集群以及RDMA通信组件等部分。

调度器负责接收请求并根据KV缓存分布和负载情况调度请求,采用启发式自动热点迁移策略。

关键观点4: Mooncake采用了基于预测的早期拒绝策略来解决过载场景的问题。

该策略通过预测Decoding节点的负载情况来提前拒绝请求,从而减少无效的Prefill计算并提高资源利用率。

关键观点5: 实验结果表明,Mooncake的架构设计和优化策略有效提高了推理服务性能。

在ArXiv Summarization和L-Eval数据集上,Mooncake的吞吐量比baseline方法有所提高。


文章预览

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 月之暗面和清华KVCache.ai团队的最新论文,首次揭秘了 Kimi背后的推理架构 ! 要知道Kimi是国产大模型的当红炸子鸡,火到可以说从来没缺过流量,甚至还经常出现过载。 而随着论文的发布,这泼天的流量到底如何被Kimi接住的问题,也有了答案。 Kimi背后的推理架构名叫 Mooncake (月饼) ,主要特点是采取了 分离式的设计方案 。 而且,Mooncake在设计之时就考虑了可能出现的 大流量场景 ,并针对这种情况专门研发。 在模拟场景下,Mooncake最高能带来 525%的吞吐量增长 ,实际场景中也能 多处理75%请求 。 另据月之暗面工程副总裁许欣然的一篇知乎文章介绍, Kimi有80%以上的流量,都是由该系统承接 。 从KV缓存出发,建造分布式系统 整个Mooncake系统设计的核心,是围绕着 KV缓存 展开的。 (KV缓存用于存储键-值 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览