专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

图解Attention优化: 从Online-Softmax到FlashAttention V1/V2/V3

AINLP · 公众号 · · 2024-07-30 10:10

文章预览

作者：DefTruth，AI Infra，暨南大学(JNU) 主页：github.com/DefTruth 声明：本文只做分享，版权归原作者，青稞AI整理原文：https://zhuanlan.zhihu.com/p/668888063 前言本文通过原理分析和图解的方式，通俗易懂地FlashAttention系列算法。FlashAttention V1/V2在LLM领域的应用已经非常广泛，相关的论文也反复读了几遍。FA1和FA2论文非常经典，都推荐读一下（不过FA2论文中公式错误不少）。本文大约1.8w字，包括以下内容： • Standard Self-Attention • (Safe) Softmax: 3-pass • Online Softmax: 2-pass • FlashAttention V1 • FlashAttention V2 • Analysis: IO Complexity of FlashAttention • 分布式训推使用FlashAttention • Memory-Efficient Attention • FlashAttention中MQA/GQA以及Causal Mask处理 • FlashAttention V3: 比V2更快、支持Hopper FP8 (TODO) • 总结本篇文章，主要是记录些FlashAttention论文阅读笔记，温故知新，不追求独 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

三联生活周刊 · 陪50岁的妈妈找工作，她终于理解我的困境

13 小时前

三联生活周刊 · 今天的我们将越来越接近《山海经》的真相

3 天前

中国人民大学出版社守望者 · 守望者037 | 赵汀阳：《没有世界观的世界》（第2版）

5 月前

新疆农促会 · 一文了解品牌农业全产业链到底有多长！

5 月前

爱可可-爱生活 · 提出歌曲生成系统SongCreator，使用双序列语言模型和注意-20240912055932

4 月前

AI科技大本营 · 苹果 AI 遭遇「滑铁卢」？73% 用户直言：Apple Intelligence 几乎没用！

3 周前