专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

vLLM源码之PagedAttention（持续更新）

GiantPandaCV · 公众号 · 3D · 2024-08-11 22:05

文章预览

原文：https://www.zhihu.com/people/tongsanpang/posts 本文主要介绍vLLM推理引擎的PagedAttention算子实现，关于PagedAttention内容，后续会持续更新。引用本文内容初版翻译自： https:// tech.scatterlab.co.kr/v llm-implementation-details/ 的PagedAttention部分，韩语写的。 https://tech.scatterlab.co.kr/vllm-implementation-details/ 后续更新版本会对源码分析再加入一些适当的图解和基础知识的补充，尽量做到能把PagedAttention分析全面细致。感谢 @lipi 提供该技术博客的原网址。 Attention 首先先了解下作为 Transformer 模型核心功能的 Attention（本文中仅介绍 GPT2 的多头 Attention）。如下图所示，右图为Multi-Head Attention，左图是是DotProductAttention，我们平时所接触的FlashAttention、PagedAttention、FlashDecoding都是这个层面的计算。具体计算公式为： A t t e n t i o n ( Q , K , K ) = s o f t m a x ( Q K T d ) V " role="presenta ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博