长短期 Transformer ：用于语言和视觉的高效 Transformer

FightingCV · 公众号 · · 2024-12-03 09:00

文章预览

摘要 Transformer模型已在语言和视觉领域取得成功。然而，将其扩展到长序列（例如长文档或高分辨率图像）成本高昂，因为自注意力机制的时间和内存复杂度与输入序列长度呈二次方关系。在本文中，我们提出了一种高效的自注意力机制——长短Transformer (Transformer-LS)，用于对语言和视觉任务中的长序列进行建模，其时间复杂度为线性。它结合了一种新颖的具有动态投影的长程注意力机制来建模远程关联，以及一种短期注意力机制来捕获细粒度的局部关联。我们提出了一种双重归一化策略来解决这两种注意力机制之间的尺度不匹配问题。 Transformer-LS 可以应用于自回归模型和双向模型，而不会增加额外的复杂性。我们的方法在语言和视觉领域的多个任务上都优于现有技术模型，包括远程竞技场基准测试、自回归语言建模和ImageNet分类。 F ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

archrace 建筑竞赛 · 北宋“第一网红”的人生，治好了我的精神内耗

2 天前

长河街道中兴社区 · 警惕登革热，这些知识要牢记

9 月前

思瑞浦3PEAK · 思瑞浦推出高PSRR、高带宽、高压运算放大器TPA267x

8 月前

华尔街见闻 · 美股风向变了？对冲基金以两年来最快速度抛售和做空

7 月前

阿尔法公社 · 获贝索斯参投的4亿美元融资，这家公司打造机器人用的“GPT-4”｜AlphaFounders

3 月前