文章预览
明敏 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 大模型训练推理神作,又更新了! 主流大模型都在用的 FlashAttention ,刚刚升级第三代。 时隔一年,FlashAttention-3已经全方位升级。 训练速度提升1.5-2倍 ,FP16下计算吞吐量高达740TFLOPs/s,达理论最大吞吐量 75% ,更充分利用计算资源,此前只能做到35%。 FP8下速度接近1.2PFLOPs/s! 同时误差也进一步减小,FP8下的误差比标准Attention 减少2.6倍 。 而且这一次,不再是一作Tri Dao单打独斗,FlashAttention-3直接和 英伟达 、Meta、谷歌等合作,针对最强芯片H100专门做优化。 英伟达CUTLASS团队和cuDNN团队,都直接为该研究提供支持。 同时和前作一样,FlashAttention-3也将开源,PyTorch和Hugging Face中都集成。 作者之一Vijay Thakkar激动表示: 曾经在FA2发布时,我就说过这句话。今天,我想再说一次: 看到CUTLASS和CuTe被用来开让Tens
………………………………