讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Mooncake:LLM服务的KVCache为中心分解架构

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-07-02 00:57

文章预览

24年6月AI公司月之暗面的技术报告“Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving”。 Mooncake 是 Kimi 的服务平台,Kimi 是月之暗面公司提供的一项 LLM 服务。它采用以 K-V Cache 为中心的分解式架构,将预填充和解码 cluster 分开。它还利用 GPU cluster 中未充分利用的 CPU、DRAM 和 SSD 资源来实现 K-V Cache 的分解式缓存。 Mooncake 的核心是以 K-V Cache 为中心的调度程序,在最大化整体有效吞吐量和满足与延迟相关的 服务级目标 (SLO) 之间取得平衡。与假设所有请求都将被处理的传统研究不同,Mooncake 面临着高度超载场景带来的挑战。为了缓解这些问题,开发一种基于预测的早期放弃(early rejection)策略。实验表明,Mooncake 在长上下文场景中表现出色。 随着大语言模型 (LLM) 在各种场景中的快速应用 [1、2、3、4],LLM 服务的工作负载变得非常多样化。这些工 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览