文章预览
以下 文 章来源于微信公众号: 集智书童 作者: 小书童 链接:https://mp.weixin.qq.com/s/zcSUUr32Xrw0-Q25oJahZA 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 传统视觉Transformer在进行全局建模时,由于二次方复杂度较高,导致模型存在计算成本高、推理速度慢等问题。本文提出了交叉注意力Transformer(CAT)。该方法能 更好地融合图像的 局部信 息 和全局信息, 并显著降低了计算成本。实验证明,该方法在ImageNet-1K、COCO和ADE20K数据集上展现出明显的优势! 论文连接:https://arxiv.org/abs/2106.05786 代码连接:https://github.com/linhezheng19/CAT 自从Transformer在NLP中得到广泛应用,其在CV领域的潜力也被认识到并激发了许多新方法。然而,在图像分块后,用图像块替换词标记进行Transformer的计算量巨大(例如,ViT),这限制了模型的训练和推理。在本文中,作
………………………………