专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

清华稀疏Attention,无需训练加速一切模型!

数据派THU  · 公众号  · 大数据  · 2025-04-18 17:00
    

文章预览

来源 :人工智能前沿讲习 本文 约1700字 ,建议阅读 6分钟 本文从前言, 挑战,方法,以及实验效果四个方面介绍 SpargeAttn。 为了进一步加速 Attention,清华大学陈键飞团队进一步提出了无需训练可直接使用的稀疏 Attention(SpargeAttn)可用来加速任意模型。实现了4-7 倍相比于 FlashAttention 的推理加速,且在语言,视频、图像生成等大模型上均保持了端到端的精度表现。 论文标题:SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference 论文链接: https://arxiv.org/abs/2502.18137  开源代码: https://github.com/thu-ml/SpargeAttn 下图展示了 SpargeAttn 的速度,可以发现在 RTX4090 上,SpargeAttn 在 60% 稀疏度的情况下可以达到 900TOPS 的速度,甚至是使用 A100 显卡速度的 4.5 倍(A100 上 FlashAttention 只有 200TOPS)。 在 SpargeAttn 的 Github 仓库中可以发现,SpargeAttn 的使用方法比较简洁 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览