文章预览
Vision-Language Models for Vision Tasks: A Survey 题目:视觉-语言模型在视觉任务中的综述 作者:Jingyi Zhang; Jiaxing Huang; Sheng Jin; Shijian Lu 摘要 大多数视觉识别研究严重依赖于深度神经网络(DNN)训练中的众包标记数据,并且通常针对每个单一视觉识别任务训练一个DNN,导致了一个繁琐且耗时的视觉识别范式。为了解决这两个挑战,最近对视觉-语言模型(VLMs)进行了深入研究,它从互联网上几乎无限可用的大规模图像-文本对中学习丰富的视觉-语言相关性,并能够使用单个VLM在各种视觉识别任务上进行零样本预测。本文系统地回顾了视觉语言模型在各种视觉识别任务中的应用,包括:(1) 介绍视觉识别范式发展的背景;(2) VLM的基础,总结了广泛采用的网络架构、预训练目标和下游任务;(3) VLM预训练和评估中广泛采用的数据集;(4) 现有VLM预训练方法、VLM迁移学
………………………………