讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

AttentionStore 论文解读

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-07-02 00:57
    

文章预览

本期论文:AttentionStore: Cost-effective Attention Reuse across Multi-turn Conversations in Large Language Model Serving 在现代人工智能技术中,能够与人类进行多轮对话是大型语言模型(LLMs)的一项基本功能。然而,目前现有的LLM服务引擎在执行多轮对话时效率低下,原因在于它们需要反复计算历史对话中的键值(KV)缓存,这导致了高昂的服务成本。 在一次对话中,LLM引擎会将中间数据,即键值(KV)对,存储在GPU上的高带宽内存(HBM)中。然而,当对话结束且会话变得不活跃时,为了给其他活跃会话腾出空间,LLM引擎通常会丢弃与该会话相关的KV缓存。当同一个会话再次变得活跃(即用户发送下一个消息)时,LLM引擎需要重新计算整个KV缓存。这就导致了同样的KV缓存被重复计算,浪费了宝贵的GPU计算资源。随着对话轮次的增加,重复计算的开销也会线性增加。 根 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览