专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

H100利用率飙升至75%!英伟达亲自下场FlashAttention三代升级,比标准注意力快16倍

量子位  · 公众号  · AI  · 2024-07-12 11:27

文章预览

明敏 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 大模型训练推理神作,又更新了! 主流大模型都在用的 FlashAttention ,刚刚升级第三代。 时隔一年,FlashAttention-3已经全方位升级。 训练速度提升1.5-2倍 ,FP16下计算吞吐量高达740TFLOPs/s,达理论最大吞吐量 75% ,更充分利用计算资源,此前只能做到35%。 FP8下速度接近1.2PFLOPs/s! 同时误差也进一步减小,FP8下的误差比标准Attention 减少2.6倍 。 而且这一次,不再是一作Tri Dao单打独斗,FlashAttention-3直接和 英伟达 、Meta、谷歌等合作,针对最强芯片H100专门做优化。 英伟达CUTLASS团队和cuDNN团队,都直接为该研究提供支持。 同时和前作一样,FlashAttention-3也将开源,PyTorch和Hugging Face中都集成。 作者之一Vijay Thakkar激动表示: 曾经在FA2发布时,我就说过这句话。今天,我想再说一次: 看到CUTLASS和CuTe被用来开让Tens ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览