降低大模型推理87%时延！华为云论文入选顶会USENIX ATC'24

华为云 · 公众号 · · 2024-07-17 19:16

文章预览

近日，计算机系统领域顶会USENIX ATC 2024在美国加州圣克拉拉召开，华为云EMS团队的论文《Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention》被该顶会收录！ CachedAttention论文提出全球首个面向大模型推理的多级KV Cache缓存系统，称作 AttentionStore ，基于AttentionStore实现了大模型推理过程中的KV Cache复用，降低了高达87%的首Token时延（TTFT, Time to First Token）。 USENIX ATC (Annual Technical Conference) 会议创办于1992年，距今有32年的历史，是由美国高等计算系统协会 (USENIX) 组织的聚焦计算机系统领域的顶级国际会议。2024年的USENIX ATC会议收到488篇投稿，录用77篇，录用率仅15.8%。 CachedAttention论文介绍通过多轮对话与人类互动是大型语言模型（LLM）的一个基本特征。然而，现有的LLM服务引擎执行多轮对话时，需要反复计算历史Token的Key-Value (KV) Cach ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

防骗大数据 · 涉案989亿元人民币！和合系实控人“林某”被押解回国！

昨天

财宝宝 · 把“相亲失败”说的那么诗情画意干嘛？你就直说，老娘是暴脾气，还想-20241220143655

2 天前

财宝宝 · 给各大平台的店小二说一说。你不要觉得，好日子就这-20241220133737

2 天前

房地产投资融资俱乐部 · 巴菲特：“资金量小是得天独厚优势。给我100万美元，我肯定能、我保证能赚50%。”炒股的尽头是人性。

3 天前

中国安全生产网 · 警示！疏忽细节引惨案发生！江西一店铺起火2人死亡→

4 天前

新青年麻醉论坛 · 【协和麻醉大讲堂】《Miller麻醉学》（第九版）第18/29章“局麻药中毒&病例讨论”

1 月前