专栏名称: 灵度智能

致力于提供优质的AI服务。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

CEO盈利思维 · 全红婵化浓妆烫头发，走成熟风被全网围攻：最担 ... · 昨天

体坛周报 · 热议 | 近4轮3负，曼联换帅换了个寂寞？ · 2 天前

格斗迷 · 两回合KO泰拳狠人，广西狼兵名不虚传 · 2 天前

东莞本地宝 · 2024东莞马拉松直播观看入口！附成绩查询→ · 3 天前

快传体育 · 快传开箱 | 匹克无双 · 4 天前

今天看啥 › 专栏 › 灵度智能

Kimi公开高负载推理架构Mooncake，支撑Kimi海量请求响应

灵度智能 · 公众号 · · 2024-07-09 12:40

文章预览

“ Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving ” Kimi是国内目前最热门大模型应用之一，每天都会有海量的请求需要处理。近日，月之暗面和清华KVCache.ai团队揭秘了Kimi背后的推理架构！论文地址：https://arxiv.org/pdf/2407.00079 Github地址：https://github.com/kvcache-ai/Mooncake 摘要 Mooncake是支撑Kimi运行的服务平台，采用KVCache-centric分布式架构，通过利用GPU集群的未充分利用的CPU、DRAM和SSD资源来实现KVCache的分布式缓存。Mooncake的核心是KVCache-centric调度器，在最大化有效吞吐量和满足服务延迟间取得了平衡。Mooncake通过基于预测的早期拒绝策略来缓解高度过载的场景。实验表明，Mooncake在长上下文场景中表现出色，可以在某些模拟场景中实现高达525%的吞吐量增加。在实际工作负载下，Mooncake的创新架构使Kimi能够处理更多的请求。简介 Mooncake开发动机 LLM ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

CEO盈利思维 · 全红婵化浓妆烫头发，走成熟风被全网围攻：最担心的事还是发生了......

昨天

CEO盈利思维 · 全红婵化浓妆烫头发，走成熟风被全网围攻：最担心的事还是发生了......

昨天

体坛周报 · 热议 | 近4轮3负，曼联换帅换了个寂寞？

2 天前

格斗迷 · 两回合KO泰拳狠人，广西狼兵名不虚传

2 天前

东莞本地宝 · 2024东莞马拉松直播观看入口！附成绩查询→

3 天前

快传体育 · 快传开箱 | 匹克无双

4 天前