专栏名称: 顶层架构领域
专注核心架构领域知识、经典干货总结、技术领域趋势跟踪,以通俗易懂的方式传播——复杂的事简单化
今天看啥  ›  专栏  ›  顶层架构领域

Kimi的服务平台 Mooncake:一种以KVCache为中心的LLM服务分解架构设计

顶层架构领域  · 公众号  ·  · 2024-07-09 08:30

文章预览

点击上方 蓝色 “ 顶层架构领域 ”,关注精彩与你分享 Mooncake是Moonshot AI提供的领先的大语言模型服务Kimi的服务平台。  采用以 KVCache 为中心的解耦架构,将预填充集群与解码集群分离,并充分利用 GPU 集群中未充分利用的 CPU、DRAM 和 SSD 资源,实现 KVCache 的解耦缓存。  这种分解的缓存架构,利用未充分利用的资源来提供充足的缓存容量和传输带宽,从而无需额外成本即可实现高效的近 GPU 前缀缓存。 以 KVCache 为中心的调度程序,它在最大化整体有效吞吐量的同时满足与延迟相关的 服务级别目标 (SLO) 。  与假设所有请求都会得到处理的传统研究不同,Mooncake 面临着由于高度超载的场景而面临的挑战。 为了缓解这些问题,制定了基于预测的早期拒绝政策。  实验表明,Mooncake 在长上下文场景中表现出色。  与基线方法相比,Mooncake 在某些模拟场 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览