文章预览
原文:https://www.zhihu.com/people/tongsanpang/posts 本文主要介绍vLLM推理引擎的PagedAttention算子实现,关于PagedAttention内容,后续会持续更新。 引用 本文内容初版翻译自: https:// tech.scatterlab.co.kr/v llm-implementation-details/ 的PagedAttention部分,韩语写的 。 https://tech.scatterlab.co.kr/vllm-implementation-details/ 后续更新版本会对源码分析再加入一些适当的图解和基础知识的补充,尽量做到能把PagedAttention分析全面细致。 感谢 @lipi 提供该技术博客的原网址。 Attention 首先先了解下作为 Transformer 模型核心功能的 Attention(本文中仅介绍 GPT2 的多头 Attention)。如下图所示,右图为Multi-Head Attention,左图是是DotProductAttention,我们平时所接触的FlashAttention、PagedAttention、FlashDecoding都是这个层面的计算。具体计算公式为: A t t e n t i o n ( Q , K , K ) = s o f t m a x ( Q K T d ) V " role="presenta
………………………………