今天看啥  ›  专栏  ›  PaperAgent

大模型厂商纷纷入局的Prompt Cache技术解析

PaperAgent  · 公众号  ·  · 2024-08-22 11:01

文章预览

Prompt Cache技术 ,旨在通过在大型语言模型(LLM)的推理过程中重用不同提示(prompts)之间的注意力状态来加速推理。 图1 比较大型语言模型(LLM)生成Token的方法 ,每种方法展示三个步骤(1至3)。每个框表示一个令牌。蓝色框代表提示。(a) 一个LLM接收一个提示(蓝色令牌)并预测下一个令牌(A)(1)。然后,它将生成的令牌(A)附加到提示上以预测下一个令牌(B)(2)。这个过程被称为自回归,会一直持续直到满足停止条件。(b) KV缓存仅在第一步(1)计算一次提示的时间注意力状态,并在随后的步骤中重复使用它们;(c) Prompt Cache在服务之间重用KV状态以绕过提示注意力计算。当加载一个模式时,Prompt Cache会填充其缓存,并为从模式派生的提示重用缓存状态(1)。图2进一步详细说明了步骤1。 问题识别 :许多输入提示在结构上高度重叠,例 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览