专栏名称: OpenCV学堂

一个致力于计算机视觉OpenCV原创技术传播的公众号！OpenCV计算机视觉与tensorflow深度学习相关算法原创文章分享、函数使用技巧、源码分析与讨论、，计算机视觉前沿技术介绍，技术专家经验分享，人才交流，学习交流。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

ViT | 视觉与文本多模态的基石

OpenCV学堂 · 公众号 · · 2025-01-14 11:35

文章预览

点击上方蓝字关注我们微信公众号： OpenCV学堂关注获取更多计算机视觉与深度学习知识思想核心 Visual Transformer将Transformer架构应用于计算机视觉任务，特别是图像分类。其核心思想是将输入的图像切分成多个图像块（patches），然后将每个图像块视为一个“词”（类似于自然语言处理中的单词），输入到Transformer网络进行处理。通过这种方式，Visual Transformer能够捕捉图像中的长距离依赖关系，同时敏锐地把握局部特征 Visual Transformer的结构 Visual Transformer是基于Transformer模型基础之上修改输入与输出部分，实现从词嵌入token输入到图像像素编码嵌入输入的改变。具体做法如下：图像块切分：将输入的图像划分为小的图像块（patches），每个图像块的大小通常为16×16或32×32像素。线性投影：将每个图像块展平并通过一个线性映射（即线性嵌入）转换 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

读嘉新闻 · 太突然！暴涨489%！

7 小时前

笛扬新闻 · 太突然！暴涨489%！

10 小时前

中国能源观察 · 能源转型，怎样才能“不差钱”？

昨天

九派新闻 · 网红小狗“艾特”去世，主人：会有后续，律师解读

2 天前

青岛新闻网 · 已确认去世！千万粉丝网红发文道歉

2 天前

青岛新闻网 · 已确认去世！千万粉丝网红发文道歉

2 天前

奶员外 · 下午，又有利好

6 月前

中建三局 · 【聚焦】小米智能家电工厂武汉开工！三局人志续“小米速度”

1 月前

福田小分队 · 新年去看展吧！16场「看展清单」· 提前给你

3 周前