专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

[Prefill优化]图解vLLM Prefix Prefill Triton Kernel

GiantPandaLLM · 公众号 · 3D · 2024-06-14 10:31

主要观点总结

本文详细讲解了vLLM Prefix Prefill Kernel的核心逻辑，包括Triton Kernel编程的入门知识、Prefix Prefill Kernel与Attention Kernel的区别、Tiling分块策略、Kernel调用逻辑（单测）、如何确认有多少个Token被Prefix Cache命中、通用Head Sizes支持、MQA/GQA支持以及Triton Kernel源码解析。

关键观点总结

关键观点1: Triton Kernel编程极简入门

介绍了Triton Kernel编程的基本概念，降低了CUDA Kernel编写的难度，并自动化了优化策略，如内存事务合并、SRAM分配和管理、流水线优化等。

关键观点2: Prefix Prefill Kernel与Attention Kernel区别

分析了Prefix Prefill Kernel在处理被Prefix Cache命中的KV Cache和未被命中的New Tokens时的区别，并解释了为什么需要使用新的kernel来处理这种情况。

关键观点3: Tiling分块策略

描述了Prefix Prefill Kernel中的分块策略，包括BLOCK_M、BLOCK_N和max_input_len/BLOCK，并展示了分块布局。

关键观点4: Kernel调用逻辑（单测）

详细说明了_fwd_kernel_alibi源码，并给出了单测代码，展示了如何调用Prefix Prefill Kernel。

关键观点5: 如何确认有多少个Token被Prefix Cache命中

介绍了在context_attention_fwd中加入代码来确认被Prefix Cache命中的Token数量。

关键观点6: 通用Head Sizes支持

分析了Prefix Prefill Kernel对通用head size的支持，包括load/store Mask和MQA/GQA处理。

关键观点7: MQA/GQA支持

详细解释了Prefix Prefill Kernel如何支持MQA/GQA，包括计算实际使用到的kv head的索引。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博