专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

用于视觉任务的视觉语言模型:综述

arXiv每日学术速递  · 公众号  ·  · 2024-11-12 13:56

文章预览

摘要 大多数视觉识别研究严重依赖于深度神经网络 (DNN) 训练中的众包标注数据,并且通常为每个单一的视觉识别任务训练一个 DNN,导致一种费力且耗时的视觉识别范式。 为了应对这两个挑战,视觉语言模型 (VLM) 近年来得到了深入研究,它从网络规模的图像-文本对中学习丰富的视觉语言关联,这些图像-文本对在互联网上几乎无限量地可用,并能够使用单个 VLM 对各种视觉识别任务进行零样本预测。 本文对用于各种视觉识别任务的视觉语言模型进行了系统回顾,包括:(1) 介绍视觉识别范式发展的背景;(2) VLM 的基础,总结了广泛采用的网络架构、预训练目标和下游任务;(3) VLM 预训练和评估中广泛采用的数据集;(4) 对现有的 VLM 预训练方法、VLM 转移学习方法和 VLM 知识蒸馏方法的回顾和分类;(5) 对所回顾方法的基准测试、分析和讨论;(6) 未来 VL ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览