专栏名称: AI大模型学习基地
人工智能AIGC行业探索分享,包括相关技术分享和资讯分享,以及相关商务洽谈合作。
今天看啥  ›  专栏  ›  AI大模型学习基地

LazyLLM:长上下文场景下提高LLM推理效率

AI大模型学习基地  · 公众号  ·  · 2024-07-31 21:58

文章预览

LazyLLM 旨在优化大型语言模型( LLM )在处理长文本语境下的推理效率。传统上, LLM 的推理过程分为预填充和解码两个阶段,其中预填充阶段负责计算并存储输入提示的所有token的键值( KV )缓存,这一步骤在面对长提示时会显著增加首次生成token的时间消耗,成为效率瓶颈。 LazyLLM 通过动态剪枝策略解决了这一问题,它仅计算对下一个token预测至关重要的 KV ,并将剩余token的计算推迟到它们变得相关时。 不同于一次性剪枝整个提示的静态方法, LazyLLM 允许模型在不同生成步骤中灵活选取不同的上下文子集,即使这些子集在先前步骤中已被剪枝。 LazyLLM 能够大幅减少首次生成token的时间,同时几乎不牺牲性能。此外,该方法可以无缝集成到现有的基于 Transformer 的 LLM 中,无需任何微调,即可提升推理速度。 1 动态Token剪枝 推理过程分为两个阶段:预 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览