讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Prompt Cache:模块化注意重用实现低延迟推理

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-07-04 00:47
    

文章预览

24年4月来自耶鲁大学和谷歌的论文“Prompt Cache: Modular Attention Reuse For Low-latency Inference“。 Prompt Cache是一种通过在不同的 LLM 提示中重用注意状态来加速大语言模型 (LLM) 推理的方法。许多输入提示都有重叠的文本段,例如系统消息、提示模板和为上下文提供的文档。主要见解在于,通过预先计算并将这些频繁出现的文本段注意状态存储在推理服务器上,可以在这些段出现在用户提示中时有效地重用它们。Prompt Cache 采用一种议程(schema),明确定义此类可重用的文本段,称为提示模块。该议程可确保注意状态重用期间的位置准确性,并为用户提供访问其提示中缓存状态的界面。原型实现在多个 LLM 中评估 Prompt Cache。Prompt Cache 显著降低了第一个token的延迟时间,尤其是对于较长的提示,例如基于文档的问答和推荐。改进范围从基于 GPU 推理的 8 倍到基于 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览