交叉注意力Transformer ，快手&北邮开源CAT，全局与局部融合，大大降低计算成本！

江大白 · 公众号 · · 2024-07-02 08:00

文章预览

以下文章来源于微信公众号：集智书童作者：小书童链接：https://mp.weixin.qq.com/s/zcSUUr32Xrw0-Q25oJahZA 本文仅用于学术分享，如有侵权，请联系后台作删文处理导读传统视觉Transformer在进行全局建模时，由于二次方复杂度较高，导致模型存在计算成本高、推理速度慢等问题。本文提出了交叉注意力Transformer（CAT）。该方法能更好地融合图像的局部信息和全局信息，并显著降低了计算成本。实验证明，该方法在ImageNet-1K、COCO和ADE20K数据集上展现出明显的优势！论文连接：https://arxiv.org/abs/2106.05786 代码连接：https://github.com/linhezheng19/CAT 自从Transformer在NLP中得到广泛应用，其在CV领域的潜力也被认识到并激发了许多新方法。然而，在图像分块后，用图像块替换词标记进行Transformer的计算量巨大（例如，ViT），这限制了模型的训练和推理。在本文中，作 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博