用通俗的语言普及最新LLM进展! 欢迎大家推荐论文!
今天看啥  ›  专栏  ›  大语言模型论文跟踪

最近大厂推出的Prompt Cache到底是个啥?

大语言模型论文跟踪  · 公众号  ·  · 2024-09-22 20:06

文章预览

最近大厂推出的Prompt Cache到底是个啥? 发布时间:2023 年 11 月 07 日 Prompt Cache: Modular Attention Reuse for Low-Latency Inference Prompt Cache,通过在不同提示间复用注意力状态,显著提升大型语言模型(LLM)的推理速度。许多提示包含重叠文本段,如系统消息、模板和上下文文档。核心思路:预先计算并存储这些常见文本段的注意力状态,以便在用户提示中快速重用。Prompt Cache 定义了可重用的“提示模块”,确保重用时的位置准确,并提供用户接口访问缓存状态。实验表明,Prompt Cache 大幅缩短了首次生成 token 的时间,尤其在长提示任务中,如文档问答和推荐。性能提升显著,从 GPU 推理的 8 倍到 CPU 推理的 60 倍,且不影响输出准确性,无需调整模型参数。 https://arxiv.org/pdf/2311.04934 如遇无法添加,请+ vx: iamxxn886 添加时请注明:LLM 1. Claude模型推出Prompt Cache 早在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览