专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
今天看啥  ›  专栏  ›  深度学习与NLP

图解Attention优化: 从Online-Softmax到FlashAttention V1/V2/V3

深度学习与NLP  · 公众号  ·  · 2024-07-28 00:00

文章预览

前言 作者:DefTruth,AI Infra,暨南大学(JNU) 主页:github.com/DefTruth 声明:本文只做分享,版权归原作者,侵权私信删除! 原文:https://zhuanlan.zhihu.com/p/668888063 本文通过原理分析和图解的方式,通俗易懂地FlashAttention系列算法。FlashAttention V1/V2在LLM领域的应用已经非常广泛,相关的论文也反复读了几遍。FA1和FA2论文非常经典,都推荐读一下(不过FA2论文中公式错误不少)。本文大约1.8w字,包括以下内容: • Standard Self-Attention • (Safe) Softmax: 3-pass • Online Softmax: 2-pass • FlashAttention V1 • FlashAttention V2 • Analysis: IO Complexity of FlashAttention • 分布式训推使用FlashAttention • Memory-Efficient Attention • FlashAttention中MQA/GQA以及Causal Mask处理 • FlashAttention V3: 比V2更快、支持Hopper FP8 (TODO) • 总结 本篇文章,主要是记录些FlashAttention论文阅读笔记,温故知新,不追 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览