文章预览
来源 :人工智能前沿讲习 本文 约1700字 ,建议阅读 6分钟 本文从前言, 挑战,方法,以及实验效果四个方面介绍 SpargeAttn。 为了进一步加速 Attention,清华大学陈键飞团队进一步提出了无需训练可直接使用的稀疏 Attention(SpargeAttn)可用来加速任意模型。实现了4-7 倍相比于 FlashAttention 的推理加速,且在语言,视频、图像生成等大模型上均保持了端到端的精度表现。 论文标题:SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference 论文链接: https://arxiv.org/abs/2502.18137 开源代码: https://github.com/thu-ml/SpargeAttn 下图展示了 SpargeAttn 的速度,可以发现在 RTX4090 上,SpargeAttn 在 60% 稀疏度的情况下可以达到 900TOPS 的速度,甚至是使用 A100 显卡速度的 4.5 倍(A100 上 FlashAttention 只有 200TOPS)。 在 SpargeAttn 的 Github 仓库中可以发现,SpargeAttn 的使用方法比较简洁
………………………………