专栏名称: CV技术指南

长期更新：深度学习、计算机视觉相关技术的总结；图像处理相关知识；最新论文；经典论文；论文综述、tensorflow和pytorch等内容总结。涉及领域：神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

局部归纳偏置真的有必要吗？探索 Transformer 新范式：一个像素就是一个 token！

CV技术指南 · 公众号 · · 2024-08-19 12:55

文章预览

前言原始 Transformer 中可以直接将每个单独的像素 (pixel) 视为 token。 Pytorch训练营，花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV全栈指导班、基础入门班、论文指导班全面上线!! 本文目录 1 一个像素就是一个 token！探索 Transformer 新范式 (来自 FAIR, Meta AI，阿姆斯特丹大学) 1 PiT 论文解读 1.1 局部性这个归纳偏置可以在 Transformer 中去除 1.2 ConvNets 中的局部性 1.3 ViTs 中的局部性 1.4 像素 Transformers 1.5 实验1：监督学习 1.6 实验2：自监督学习 1.7 实验3：图像生成 1.8 ViT 中的局部性设计 1.9 PiT 的局限性太长不看版本文不是提出新视觉 Transformer 架构的工作，而是质疑视觉 Transformer 中归纳偏置 (inductive bias) ，即现代视觉 Transformer 中局部性 (locality) 的必要性。本文的发现：原始 Transformer 中可以直接将每个单独的像素 (pixel) ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博