图解Attention优化: 从Online-Softmax到FlashAttention V1/V2/V3

深度学习与NLP · 公众号 · · 2024-07-28 00:00

文章预览

前言作者：DefTruth，AI Infra，暨南大学(JNU) 主页：github.com/DefTruth 声明：本文只做分享，版权归原作者，侵权私信删除！原文：https://zhuanlan.zhihu.com/p/668888063 本文通过原理分析和图解的方式，通俗易懂地FlashAttention系列算法。FlashAttention V1/V2在LLM领域的应用已经非常广泛，相关的论文也反复读了几遍。FA1和FA2论文非常经典，都推荐读一下（不过FA2论文中公式错误不少）。本文大约1.8w字，包括以下内容： • Standard Self-Attention • (Safe) Softmax: 3-pass • Online Softmax: 2-pass • FlashAttention V1 • FlashAttention V2 • Analysis: IO Complexity of FlashAttention • 分布式训推使用FlashAttention • Memory-Efficient Attention • FlashAttention中MQA/GQA以及Causal Mask处理 • FlashAttention V3: 比V2更快、支持Hopper FP8 (TODO) • 总结本篇文章，主要是记录些FlashAttention论文阅读笔记，温故知新，不追 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博