专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

[Attention优化][2w字]原理&图解: 从Online-Softmax到FlashAttention V1/V2/V3

GiantPandaCV · 公众号 · 3D · 2024-06-01 23:23

文章预览

作者丨DefTruth 来源丨https://zhuanlan.zhihu.com/p/668888063 编辑丨GiantPandaCV 0x00 前言本文通过原理分析和图解的方式，通俗易懂地FlashAttention系列算法。FlashAttention V1/V2在LLM领域的应用已经非常广泛，相关的论文也反复读了几遍。FA1和FA2论文非常经典，都推荐读一下（不过FA2论文中公式错误不少）。本文大约1.8w字，包括以下内容： 0x01 Standard Self-Attention 0x02 (Safe) Softmax: 3-pass 0x03 Online Softmax: 2-pass 0x04 FlashAttention V1 0x05 FlashAttention V2 0x06 Analysis: IO Complexity of FlashAttention 0x07 分布式训推使用FlashAttention 0x08 Memory-Efficient Attention 0x09 FlashAttention中MQA/GQA以及Causal Mask处理 0x0a FlashAttention V3: FlashDecoding以及FlashDecoding++ 对于FA入门，非常推荐这篇手稿： https://courses.cs.washington.edu/courses/cse599m/23sp/notes/flashattn.pdf 本篇文章，主要是记录些FlashAttention论文阅读笔记，温故知新，不追 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博