专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

梳理下Flash Attention的dispatch逻辑

极市平台 · 公众号 · · 2024-11-12 22:00

文章预览

↑ 点击蓝字关注极市平台作者丨GiantPandaCV 来源丨GiantPandaCV 编辑丨极市平台极市导读本文分析了Flash Attention在不同场景下的内核调度逻辑，特别关注了在解码阶段何时会使用split_kv实现，并探讨了影响这一决策的因素，如K序列的最大长度、注意力头数和GPU的流处理器数量。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿 0x1. 前言这篇文章来源是当运行下面的对HuggingFace Qwen2.5-7B-Instruct模型使用Flash Attention的代码时，使用Nsight System工具抓取的kernel trace会发现在prefill和decode阶段，Flash Attention调用了不同的kernel并且decoding的Flash Attention kernel使用了split_kv的实现。然后如果把下面代码中max_new_tokens改成64，我发现在Nsight System工具抓取的kernel trace中，decode阶段的Flash Attention kernel又变成了和prefill阶段一样的kernel，并没有使用split_kv的实现。这篇文 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博