专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

清华稀疏Attention,无需训练加速一切模型!

机器之心  · 公众号  · AI  · 2025-03-27 09:18
    

文章预览

在当今各类大语言模型以及视频模型中,长序列场景越来越普遍,而 Attention 的计算复杂度随着序列长度呈平方增长,成为长序列任务下的主要计算瓶颈。此前,清华大学陈键飞团队提出的即插即用量化的 SageAttention 系列工作已实现 3 倍加速于 FlashAttention,且在各类大模型上均保持了端到端的精度,已被业界和社区广泛使用。为了进一步加速 Attention,清华大学陈键飞团队进一步提出了 无需训练 可直接使用的稀疏 Attention(SpargeAttn)可用来 加速任意模型 。实现了 4-7 倍相比于 FlashAttention 的推理加速,且在语言,视频、图像生成等大模型上均保持了端到端的精度表现。 论文标题: SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference 论文链接: https://arxiv.org/abs/2502.18137  开源代码: https://github.com/thu-ml/SpargeAttn 下图展示了 SpargeAttn 的速度,可以发 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览