文章预览
“ Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving ” Kimi是国内目前最热门大模型应用之一,每天都会有海量的请求需要处理。近日,月之暗面和清华KVCache.ai团队揭秘了Kimi背后的推理架构! 论文地址 :https://arxiv.org/pdf/2407.00079 Github地址 :https://github.com/kvcache-ai/Mooncake 摘要 Mooncake是支撑Kimi运行的服务平台,采用KVCache-centric分布式架构,通过利用GPU集群的未充分利用的CPU、DRAM和SSD资源来实现KVCache的分布式缓存。Mooncake的核心是KVCache-centric调度器,在最大化有效吞吐量和满足服务延迟间取得了平衡。Mooncake通过基于预测的早期拒绝策略来缓解高度过载的场景。实验表明,Mooncake在长上下文场景中表现出色,可以在某些模拟场景中实现高达525%的吞吐量增加。在实际工作负载下,Mooncake的创新架构使Kimi能够处理更多的请求。 简介 Mooncake开发动机 LLM
………………………………