H100利用率飙升至75%！英伟达亲自下场FlashAttention三代升级，比标准注意力快16倍

量子位 · 公众号 · AI · 2024-07-12 11:27

文章预览

明敏克雷西发自凹非寺量子位 | 公众号 QbitAI 大模型训练推理神作，又更新了！主流大模型都在用的 FlashAttention ，刚刚升级第三代。时隔一年，FlashAttention-3已经全方位升级。训练速度提升1.5-2倍，FP16下计算吞吐量高达740TFLOPs/s，达理论最大吞吐量 75% ，更充分利用计算资源，此前只能做到35%。 FP8下速度接近1.2PFLOPs/s！同时误差也进一步减小，FP8下的误差比标准Attention 减少2.6倍。而且这一次，不再是一作Tri Dao单打独斗，FlashAttention-3直接和英伟达、Meta、谷歌等合作，针对最强芯片H100专门做优化。英伟达CUTLASS团队和cuDNN团队，都直接为该研究提供支持。同时和前作一样，FlashAttention-3也将开源，PyTorch和Hugging Face中都集成。作者之一Vijay Thakkar激动表示：曾经在FA2发布时，我就说过这句话。今天，我想再说一次：看到CUTLASS和CuTe被用来开让Tens ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · //@高飞:原博提出要做“full stack”，完全同意，现在-20241124093621

2 天前

爱可可-爱生活 · 【LTX-Video：一款基于DiT的实时视频生成模型，可在实时-20241123155404

2 天前

黄建同学 · 菩提祖师：500年后，有水淹你，有火烧你，有雷击你，有电劈你，有-20241123121208

2 天前

宝玉xp · 转：cloudflare worker AI 现在所有的生图模型-20241121164452

4 天前

黄建同学 · #英伟达##英伟达Blackwell芯片已全面投产#国外分析师B-20241121092656

5 天前

Fenng · 现在的穿越小说，如果改编成游戏，都太单线条了。应该随机给玩家穿越-20240630230542

4 月前

参考消息 · 莫迪：感谢普京

4 月前

诉讼攻略 · 执行货币类财产时迟延履行利息截止日的确定规则

2 月前