现有的视觉Transformer中的两大问题:1. 传统的Multi-Head Self-Attention (MHSA) 需要大量的计算、空间资源。2. 视觉Transformer在图像分类中被过度地开发和调整,却忽视了图像分类(单一场景,与MLP较为相似)和各类下游场景理解任务(复杂场景,丰富结构和内容信息)的区别。为了解决以上两大问题,研究人员提出了基于金字塔池化的视觉Transformer,第一次将金字塔池化思想引入到视觉Transformer中,从而减少使用传统MHSA带来的过高计算量和存储空间(问题1)。此外,研究人员注意到pyramid pooling因其强大的抽象上下文能力在各类下游视觉任务上的表现都十分出色,且其空间不变性的自然属性适合解决结构信息的丢失问题(问题2)。论文链接:https://arxiv.org/abs/2106.12011中文版本:https://mmcheng.net/wp-content/uploads/2022/08/22PAMI_P2T_CN.pdf代码链接:https://github.com/yuhuan-wu/
………………………………