专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

长短期 Transformer :用于语言和视觉的高效 Transformer

FightingCV  · 公众号  ·  · 2024-12-03 09:00
    

文章预览

摘要 Transformer模型已在语言和视觉领域取得成功。  然而,将其扩展到长序列(例如长文档或高分辨率图像)成本高昂,因为自注意力机制的时间和内存复杂度与输入序列长度呈二次方关系。  在本文中,我们提出了一种高效的自注意力机制——长短Transformer (Transformer-LS),用于对语言和视觉任务中的长序列进行建模,其时间复杂度为线性。  它结合了一种新颖的具有动态投影的长程注意力机制来建模远程关联,以及一种短期注意力机制来捕获细粒度的局部关联。  我们提出了一种双重归一化策略来解决这两种注意力机制之间的尺度不匹配问题。  Transformer-LS 可以应用于自回归模型和双向模型,而不会增加额外的复杂性。  我们的方法在语言和视觉领域的多个任务上都优于现有技术模型,包括远程竞技场基准测试、自回归语言建模和ImageNet分类。  F ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览