文章预览
24年6月AI公司月之暗面的技术报告“Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving”。 Mooncake 是 Kimi 的服务平台,Kimi 是月之暗面公司提供的一项 LLM 服务。它采用以 K-V Cache 为中心的分解式架构,将预填充和解码 cluster 分开。它还利用 GPU cluster 中未充分利用的 CPU、DRAM 和 SSD 资源来实现 K-V Cache 的分解式缓存。 Mooncake 的核心是以 K-V Cache 为中心的调度程序,在最大化整体有效吞吐量和满足与延迟相关的 服务级目标 (SLO) 之间取得平衡。与假设所有请求都将被处理的传统研究不同,Mooncake 面临着高度超载场景带来的挑战。为了缓解这些问题,开发一种基于预测的早期放弃(early rejection)策略。实验表明,Mooncake 在长上下文场景中表现出色。 随着大语言模型 (LLM) 在各种场景中的快速应用 [1、2、3、4],LLM 服务的工作负载变得非常多样化。这些工
………………………………