文章预览
在当今各类大语言模型以及视频模型中,长序列场景越来越普遍,而 Attention 的计算复杂度随着序列长度呈平方增长,成为长序列任务下的主要计算瓶颈。此前,清华大学陈键飞团队提出的即插即用量化的 SageAttention 系列工作已实现 3 倍加速于 FlashAttention,且在各类大模型上均保持了端到端的精度,已被业界和社区广泛使用。为了进一步加速 Attention,清华大学陈键飞团队进一步提出了 无需训练 可直接使用的稀疏 Attention(SpargeAttn)可用来 加速任意模型 。实现了 4-7 倍相比于 FlashAttention 的推理加速,且在语言,视频、图像生成等大模型上均保持了端到端的精度表现。 论文标题: SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference 论文链接: https://arxiv.org/abs/2502.18137 开源代码: https://github.com/thu-ml/SpargeAttn 下图展示了 SpargeAttn 的速度,可以发
………………………………