专栏名称: 将门创投

将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

TPAMI 2022 | 金字塔池化的骨干网络，各大任务都涨点！南开&达摩院联合推出P2T

将门创投 · 公众号 · 科技创业 · 2022-09-07 08:22

现有的视觉Transformer中的两大问题：1. 传统的Multi-Head Self-Attention (MHSA) 需要大量的计算、空间资源。2. 视觉Transformer在图像分类中被过度地开发和调整，却忽视了图像分类（单一场景，与MLP较为相似）和各类下游场景理解任务（复杂场景，丰富结构和内容信息）的区别。为了解决以上两大问题，研究人员提出了基于金字塔池化的视觉Transformer，第一次将金字塔池化思想引入到视觉Transformer中，从而减少使用传统MHSA带来的过高计算量和存储空间（问题1）。此外，研究人员注意到pyramid pooling因其强大的抽象上下文能力在各类下游视觉任务上的表现都十分出色，且其空间不变性的自然属性适合解决结构信息的丢失问题（问题2）。论文链接：https://arxiv.org/abs/2106.12011中文版本：https://mmcheng.net/wp-content/uploads/2022/08/22PAMI_P2T_CN.pdf代码链接：https://github.com/yuhuan-wu/ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博