Mooncake：LLM服务的KVCache为中心分解架构

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-07-02 00:57

文章预览

24年6月AI公司月之暗面的技术报告“Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving”。 Mooncake 是 Kimi 的服务平台，Kimi 是月之暗面公司提供的一项 LLM 服务。它采用以 K-V Cache 为中心的分解式架构，将预填充和解码 cluster 分开。它还利用 GPU cluster 中未充分利用的 CPU、DRAM 和 SSD 资源来实现 K-V Cache 的分解式缓存。 Mooncake 的核心是以 K-V Cache 为中心的调度程序，在最大化整体有效吞吐量和满足与延迟相关的服务级目标 (SLO) 之间取得平衡。与假设所有请求都将被处理的传统研究不同，Mooncake 面临着高度超载场景带来的挑战。为了缓解这些问题，开发一种基于预测的早期放弃（early rejection）策略。实验表明，Mooncake 在长上下文场景中表现出色。随着大语言模型 (LLM) 在各种场景中的快速应用 [1、2、3、4]，LLM 服务的工作负载变得非常多样化。这些工 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

证券时报 · 民生银行最新公告：将被举牌

4 天前

国信研究 · 国信证券2025年高质最发展投资策略会-以新质生产力促高质量发展

4 天前

郁言债市 · 3-5年城投债开启修复了吗

4 天前

郁言债市 · 债市跟踪 | 直面供给，博弈冲击

5 天前

中国证券报 · 利率持续下降，大额存单“不香了”？

6 天前

918云南交通台 · 中国对这3国试行免签政策！

5 月前

手游出海 · 三七互娱出海角色卡牌类小游戏《无名之辈》，玩法适合新手玩家

4 月前