文章预览
SmartFlowAI 点击上方 蓝字 关注我们 翻译:某上市公司算法工程师 原文链接:https://tridao.me/publications/flash3/flash3.pdf 欢迎对FlashAttention-3感兴趣的同学,后台回复关键词“ FLA3 ”,参加周六晚圆桌会议 全文约 8000 字,预计阅读时间 12 分钟 作者信息: Jay Shah ¹, Ganesh Bikshandi ¹, Ying Zhang², Vijay Thakkar³⁴, Pradeep Ramani³, 和 Tri Dao⁵⁶ ¹Colfax Research ²Meta ³NVIDIA ⁴Georgia Tech ⁵Princeton University ⁶Together AI {jayshah,ganesh}@colfax-intl.com, yingz@meta.com, {vithakkar,prraman}@nvidia.com, tri@tridao.me 摘要 注意力机制作为无处不在的Transformer架构的核心层,是大型语言模型和长上下文应用的瓶颈。FlashAttention提出了一种通过最小化内存读/写来加速GPU上的注意力计算的方法。它尚未利用最新硬件中的新功能,FlashAttention-2仅在H100 GPU上实现了35%的利用率。我们开发了三种主要技术来加速Hopper
………………………………