专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaCV

图解KV Cache:加速大模型推理的幕后功臣

GiantPandaCV  · 公众号  · 3D  · 2024-10-14 15:34
    

文章预览

在开始之前,给大家出几个“高频面试题”,看看你能答上来吗? 1. 举例说明 KV Cache 的计算过程 2.为什么要用 KV Cache?它能解决什么问题,代价又是什么? 3. vLLM 里 KV Cache 形影不离的搭档是谁? 还记得之前那篇 大语言模型推理,用动画一看就懂! 的文章吗?是的!我们再次用动画来演示大语言模型的推理过程!几乎所有的大语言模型(LLM)都基于 Transformer 架构,它依赖于之前生成的 token 来预测下一个字符。而自注意力机制(self-attention)则是模型推理的核心:它不仅需要当前 token,还要每次“回顾”之前的所有 token。 动画演示 KV Cache 为了更加形象理解上面提到的自注意力机制的“回顾机制”,下面我画了一张图。它是 大语言模型推理,用动画一看就懂! 中那个文本生成步骤的第四步,其中计算 self-attention 时所需的 Key 和 Value 的示意图。 注 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览