专栏名称: OpenCV学堂
一个致力于计算机视觉OpenCV原创技术传播的公众号!OpenCV计算机视觉与tensorflow深度学习相关算法原创文章分享、函数使用技巧、源码分析与讨论、,计算机视觉前沿技术介绍,技术专家经验分享,人才交流,学习交流。
今天看啥  ›  专栏  ›  OpenCV学堂

ViT | 视觉与文本多模态的基石

OpenCV学堂  · 公众号  ·  · 2025-01-14 11:35
    

文章预览

点击上方 蓝字 关注我们 微信公众号: OpenCV学堂 关注获取更多计算机视觉与深度学习知识 思想核心 Visual Transformer将Transformer架构应用于计算机视觉任务,特别是图像分类。其核心思想是将输入的图像切分成多个图像块(patches),然后将每个图像块视为一个“词”(类似于自然语言处理中的单词),输入到Transformer网络进行处理。通过这种方式,Visual Transformer能够捕捉图像中的长距离依赖关系,同时敏锐地把握局部特征 Visual Transformer的结构 Visual Transformer是基于Transformer模型基础之上修改输入与输出部分,实现从词嵌入token输入到图像像素编码嵌入输入的改变。 具体做法如下: 图像块切分: 将输入的图像划分为小的图像块(patches),每个图像块的大小通常为16×16或32×32像素。 线性投影: 将每个图像块展平并通过一个线性映射(即线性嵌入)转换 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览