专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Meta新研究挑战CV领域基操：ViT根本不用patch，用像素做token效果更佳

新智元 · 公众号 · AI · 2024-07-09 12:50

文章预览

新智元报道编辑：乔杨【新智元导读】下一代视觉模型会摒弃patch吗？Meta AI最近发表的一篇论文就质疑了视觉模型中局部关系的必要性。他们提出了PiT架构，让Transformer直接学习单个像素而不是16×16的patch，结果在多个下游任务中取得了全面超越ViT模型的性能。正如token是文本处理的基本单位，patch也被默认是计算机视觉领域处理图像的基本单位。从CNN诞生，到结合Transformer架构的ViT，虽然模型架构发生了很大的变化，但有一点始终一致—— 研究人员们都会把原始图像先进行切割，模型输入以patch作为基本单位。这种预处理方法非常有效，因此有广泛的影响力，几乎主导了整个CV领域。甚至于，Sora等视频生成模型也沿用了这种方法。 Sora技术报告，训练时将视觉数据切割为patch 然而，Meta AI和阿姆斯特丹大学最近联合发表了一篇文章，对这 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

量子位 · Claude化身服务器联通一切！AI写好代码自己发Github，人类程序员只配动嘴了

16 小时前

爱可可-爱生活 · 【llama-ocr：基于Llama 3.2视觉模型的文档OCR-20241125134522

昨天

量子位 · 乌镇最火AI议题，原来答案藏在这份报告里

昨天

爱可可-爱生活 · //@爱可可-爱生活：欢迎参与～-20241125073552

昨天

爱可可-爱生活 · 【AI前沿：从智能合作到语言模型的最新突破】本期节目深入解析五大-20241123105313

3 天前

常客计划 · 青岛丽思卡尔顿酒店最新消息，官宣开业时间

3 月前

蓝字计划 · 走出技术陷阱

3 月前