专栏名称: CV技术指南

长期更新：深度学习、计算机视觉相关技术的总结；图像处理相关知识；最新论文；经典论文；论文综述、tensorflow和pytorch等内容总结。涉及领域：神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Meta新研究挑战CV领域基操：ViT根本不用patch，用像素做token效果更佳

CV技术指南 · 公众号 · · 2024-07-12 09:10

文章预览

前言下一代视觉模型会摒弃patch吗？Meta AI最近发表的一篇论文就质疑了视觉模型中局部关系的必要性。他们提出了PiT架构，让Transformer直接学习单个像素而不是16×16的patch，结果在多个下游任务中取得了全面超越ViT模型的性能。 Pytorch训练营，花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV全栈指导班、基础入门班、论文指导班全面上线!! 来源：新智元仅用于学术分享，若侵权请联系删除正如token是文本处理的基本单位，patch也被默认是计算机视觉领域处理图像的基本单位。从CNN诞生，到结合Transformer架构的ViT，虽然模型架构发生了很大的变化，但有一点始终一致—— 研究人员们都会把原始图像先进行切割，模型输入以patch作为基本单位。这种预处理方法非常有效，因此有广泛的影响力，几乎主导了整个CV领域。甚 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

梦幻西游 · 入手简单！当一个3100伤害的凌波城沉迷于任务后它能获得哪些快乐

2 天前

娱乐资本论 · “网易领导全没了”？逆水寒发疯式营销被罚

4 天前

走读浙中 · 这位来自东阳的省委书记现场飚英语，与外籍滑雪爱好者交流，推介吉林冰雪

5 天前

苍梧晚报 · 涨了！江苏省工资，涨了！

5 月前

川大就业 · 就业指导 | 在找工作？想找实习？简历还不够好？四川大学简历制作系统来帮你！

3 月前

西二旗猿圈儿 · 谷歌超25%新代码由AI生成

3 周前