文章预览
↑ 点击 蓝字 关注极市平台 作者丨新智元 来源丨新智元 编辑丨极市平台 极市导读 时隔一年,FlashAttention又推出了第三代更新,专门针对H100 GPU的新特性进行优化,在之前的基础上又实现了1.5~2倍的速度提升。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 FlashAttention又有后续了! 去年7月,FlashAttention-2发布,相比第一代实现了2倍的速度提升,比PyTorch上的标准注意力操作快5~9倍,达到A100上理论最大FLOPS的50~73%,实际训练速度可达225 TFLOPS(模型FLOPs利用率为72%)。 然而,去年发布FlashAttenion-2尚未运用到硬件中的最新功能,在H100上仅实现了理论最大FLOPS 35%的利用率。 时隔一年,FlashAttention-3归来,将H100的FLOP利用率再次拉到75%,相比第二代又实现了1.5~2倍的速度提升,在H100上的速度达到740 TFLOPS。 论文地址: https://tridao.me/publications/flash3/
………………………………