专栏名称: OpenCV学堂

一个致力于计算机视觉OpenCV原创技术传播的公众号！OpenCV计算机视觉与tensorflow深度学习相关算法原创文章分享、函数使用技巧、源码分析与讨论、，计算机视觉前沿技术介绍，技术专家经验分享，人才交流，学习交流。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Meta新研究挑战CV领域基操：ViT根本不用patch，用像素做token效果更佳

OpenCV学堂 · 公众号 · · 2024-07-09 21:23

文章预览

点击上方 ↑↑↑ “ OpenCV学堂 ”关注我来源：公众号新智元授权【导读】下一代视觉模型会摒弃patch吗？Meta AI最近发表的一篇论文就质疑了视觉模型中局部关系的必要性。他们提出了PiT架构，让Transformer直接学习单个像素而不是16×16的patch，结果在多个下游任务中取得了全面超越ViT模型的性能。正如token是文本处理的基本单位，patch也被默认是计算机视觉领域处理图像的基本单位。从CNN诞生，到结合Transformer架构的ViT，虽然模型架构发生了很大的变化，但有一点始终一致—— 研究人员们都会把原始图像先进行切割，模型输入以patch作为基本单位。这种预处理方法非常有效，因此有广泛的影响力，几乎主导了整个CV领域。甚至于，Sora等视频生成模型也沿用了这种方法。 Sora技术报告，训练时将视觉数据切割为patch 然而，Meta AI和阿姆斯特丹大学 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博