清华稀疏Attention，无需训练加速一切模型！

机器之心 · 公众号 · AI · 2025-03-27 09:18

文章预览

在当今各类大语言模型以及视频模型中，长序列场景越来越普遍，而 Attention 的计算复杂度随着序列长度呈平方增长，成为长序列任务下的主要计算瓶颈。此前，清华大学陈键飞团队提出的即插即用量化的 SageAttention 系列工作已实现 3 倍加速于 FlashAttention，且在各类大模型上均保持了端到端的精度，已被业界和社区广泛使用。为了进一步加速 Attention，清华大学陈键飞团队进一步提出了无需训练可直接使用的稀疏 Attention（SpargeAttn）可用来加速任意模型。实现了 4-7 倍相比于 FlashAttention 的推理加速，且在语言，视频、图像生成等大模型上均保持了端到端的精度表现。论文标题： SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference 论文链接： https://arxiv.org/abs/2502.18137 开源代码： https://github.com/thu-ml/SpargeAttn 下图展示了 SpargeAttn 的速度，可以发 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博