今天看啥  ›  专栏  ›  华为云

降低大模型推理87%时延!华为云论文入选顶会USENIX ATC'24

华为云  · 公众号  ·  · 2024-07-17 19:16
    

文章预览

近日,计算机系统领域顶会USENIX ATC 2024在美国加州圣克拉拉召开,华为云EMS团队的论文《Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention》被该顶会收录! CachedAttention论文提出全球首个面向大模型推理的多级KV Cache缓存系统,称作 AttentionStore ,基于AttentionStore实现了大模型推理过程中的KV Cache复用, 降低了高达87%的首Token时延 (TTFT, Time to First Token)。 USENIX ATC (Annual Technical Conference) 会议创办于1992年,距今有32年的历史,是由美国高等计算系统协会 (USENIX) 组织的聚焦计算机系统领域的顶级国际会议。2024年的USENIX ATC会议收到488篇投稿,录用77篇,录用率仅15.8%。 CachedAttention论文介绍 通过多轮对话与人类互动是大型语言模型(LLM)的一个基本特征。然而,现有的LLM服务引擎执行多轮对话时,需要反复计算历史Token的Key-Value (KV) Cach ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览