Mamba一作再祭神作，H100利用率飙至75%！FlashAttention三代性能翻倍，比标准注意力快16倍

深度学习与NLP · 知乎专栏 · · 2024-07-13 10:13

文章预览

来源 | 新智元 ID | AI-era FlashAttention又有后续了！去年7月， FlashAttention-2发布，相比第一代实现了2倍的速度提升，比PyTorch上的标准注意力操作快5～9倍，达到A100上理论最大FLOPS的50～73%，实际训练速度可达225 TFLOPS（模型FLOPs利用率为72%）。然而，去年发布FlashAttenion-2尚未运用到硬件中的最新功能，在H100上仅实现了理论最大FLOPS 35%的利用率。时隔一年，FlashAttention-3归来，将H100的FLOP利用率再次拉到75%，相比第二代又实现了1.5～2倍的速度提升，在H100上的速度达到740 TFLOPS。论文地址： https:// tridao.me/publications/ flash3/flash3.pdf 值得一提的是，FlashAttention v1和v2的第一作者也是 Mamba的共同一作，普林斯顿大学助理教授Tri Dao ，他的名字也在这次FlashAttention-3的作者列表中。 Tri Dao师从于Christopher Ré和Stefano Ermon，去年6月在斯坦福大学获得计算机博士学位，毕业 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

跨境电商Eason · 转行做抖音tiktok菲律宾小店赚米

昨天

跨境电商Eason · 转行做抖音tiktok菲律宾小店赚米

昨天

钱币收藏 · 龙钞涨疯了！单张突破400元！蛇钞也起飞，最新价格曝光

昨天

网信开平 · 共建安全生活｜开平区开展国家安全教育进乡村活动

昨天

食品伙伴网 · 食品伙伴网微信公众号矩阵（2025年4月）

2 天前

北方海南 · 时间已定，油价将大幅调整

2 天前

常岩CY · 特斯拉开始向首批用户推送 FSD v12.4，该版本最大的亮点是-20240520224211

11 月前

飓风网络安全 · 【漏洞预警】Splunk Enterprise需授权路径遍历漏洞可导致远程代码执行

6 月前

二孩妈妈进化论 · 运动团！安德玛KIDS，全球一线运动品牌，全场1折起，童装低至39.9元抢！

3 周前

环评互联网 · 报告快速初审与排污许可浓缩版：免费体验进行中

1 周前