文章预览
作者丨DefTruth 来源丨https://zhuanlan.zhihu.com/p/668888063 编辑丨GiantPandaCV 0x00 前言 本文通过原理分析和图解的方式,通俗易懂地FlashAttention系列算法。FlashAttention V1/V2在LLM领域的应用已经非常广泛,相关的论文也反复读了几遍。FA1和FA2论文非常经典,都推荐读一下(不过FA2论文中公式错误不少)。本文大约1.8w字,包括以下内容: 0x01 Standard Self-Attention 0x02 (Safe) Softmax: 3-pass 0x03 Online Softmax: 2-pass 0x04 FlashAttention V1 0x05 FlashAttention V2 0x06 Analysis: IO Complexity of FlashAttention 0x07 分布式训推使用FlashAttention 0x08 Memory-Efficient Attention 0x09 FlashAttention中MQA/GQA以及Causal Mask处理 0x0a FlashAttention V3: FlashDecoding以及FlashDecoding++ 对于FA入门,非常推荐这篇手稿: https://courses.cs.washington.edu/courses/cse599m/23sp/notes/flashattn.pdf 本篇文章,主要是记录些FlashAttention论文阅读笔记,温故知新,不追
………………………………