专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

【翻译】【PyTorch 奇技淫巧】FlexAttetion 基于Triton打造灵活度拉满的Attention

GiantPandaCV · 公众号 · 3D · 2024-10-08 21:14

文章预览

blog链接：https://pytorch.org/blog/flexattention/ 代码示例：https://github.com/pytorch-labs/attention-gym/blob/main/examples/flex_attn.ipynb FlexAttention: PyTorch 的灵活性与 FlashAttention 的性能 by Team PyTorch: Horace He, Driss Guessous, Yanbo Liang, Joy Dong 理论上，Attention is All You Need。然而在实践中，我们还需要像FlashAttention这样的优化注意力实现。尽管这些融合的注意力实现显著提高了性能并支持了长上下文，但这种效率是以灵活性为代价的。你不能再通过编写几个PyTorch操作符来尝试新的注意力变体——你通常需要编写一个新的自定义kernel！这对机器学习研究人员来说就像是一种“软件彩票”——如果你的注意力变体不适合现有的优化kernel之一，你注定会面临缓慢的运行时间和CUDA内存不足的问题。一些注意力变体的例子包括因果关系、相对位置嵌入（https://paperswithcode.com/method/relative-posit ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博