浙江大学提出跨尺度、长距离注意力Transformer，胜任多项视觉任务！（附论文和源码）

江大白 · 公众号 · · 2024-09-02 08:00

文章预览

以下文章来源于微信公众号：小白学视觉作者：大师姐链接：https://mp.weixin.qq.com/s/I7CtWVSGJfrOHA6yPl62OQ 本文仅用于学术分享，如有侵权，请联系后台作删文处理导读多变量时间序列任务是指在时间序列中同时考虑多个变量的预测问题。本文在 CrossFormer基础上提出了渐进组大小（PGS）范式和幅度冷却层（ACL）来分别缓解自注意力图的扩展和幅度爆炸，即 CrossFormer++。在 COCO 2017、 ImageNet数据集上表现优异！摘要虽然不同尺度的特征在视觉输入中具有感知重要性，但现有的视觉Transformer尚未显式利用这些特征。为此，我们首先提出了一种跨尺度视觉Transformer，即CrossFormer。它引入了跨尺度嵌入层（CEL）和长短距离注意力（LSDA）。一方面，CEL将每个标记与不同尺度的多个补丁混合，为自注意力模块本身提供跨尺度特征。另一方面，LSDA将自注意力模块 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博