今天看啥  ›  专栏  ›  新机器视觉

TPAMI 2024 | 视觉-语言模型在视觉任务中的综述

新机器视觉  · 公众号  ·  · 2024-09-22 21:15
    

文章预览

Vision-Language Models for Vision Tasks: A Survey 题目:视觉-语言模型在视觉任务中的综述 作者:Jingyi Zhang; Jiaxing Huang; Sheng Jin; Shijian Lu 摘要 大多数视觉识别研究严重依赖于深度神经网络(DNN)训练中的众包标记数据,并且通常针对每个单一视觉识别任务训练一个DNN,导致了一个繁琐且耗时的视觉识别范式。为了解决这两个挑战,最近对视觉-语言模型(VLMs)进行了深入研究,它从互联网上几乎无限可用的大规模图像-文本对中学习丰富的视觉-语言相关性,并能够使用单个VLM在各种视觉识别任务上进行零样本预测。本文系统地回顾了视觉语言模型在各种视觉识别任务中的应用,包括:(1) 介绍视觉识别范式发展的背景;(2) VLM的基础,总结了广泛采用的网络架构、预训练目标和下游任务;(3) VLM预训练和评估中广泛采用的数据集;(4) 现有VLM预训练方法、VLM迁移学 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览