局部归纳偏置真的有必要吗？探索 Transformer 新范式：一个像素就是一个 token！

arXiv每日学术速递 · 公众号 · · 2024-06-25 15:12

文章预览

作者丨科技猛兽编辑丨极市平台极市导读原始 Transformer 中可以直接将每个单独的像素 (pixel) 视为 token。本文目录 1 一个像素就是一个 token！探索 Transformer 新范式 (来自 FAIR, Meta AI，阿姆斯特丹大学) 1 PiT 论文解读 1.1 局部性这个归纳偏置可以在 Transformer 中去除 1.2 ConvNets 中的局部性 1.3 ViTs 中的局部性 1.4 像素 Transformers 1.5 实验1：监督学习 1.6 实验2：自监督学习 1.7 实验3：图像生成 1.8 ViT 中的局部性设计 1.9 PiT 的局限性太长不看版本文不是提出新视觉 Transformer 架构的工作，而是质疑视觉 Transformer 中归纳偏置 (inductive bias) ，即现代视觉 Transformer 中局部性 (locality) 的必要性。本文的发现：原始 Transformer 中可以直接将每个单独的像素 (pixel) 视为 token。这可以在目标检测，MAE 自监督训练以及基于扩散模型的图像生成这3大任务上实现高性能的结 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博