用于视觉任务的视觉语言模型：综述

arXiv每日学术速递 · 公众号 · · 2024-11-12 13:56

文章预览

摘要大多数视觉识别研究严重依赖于深度神经网络 (DNN) 训练中的众包标注数据，并且通常为每个单一的视觉识别任务训练一个 DNN，导致一种费力且耗时的视觉识别范式。为了应对这两个挑战，视觉语言模型 (VLM) 近年来得到了深入研究，它从网络规模的图像-文本对中学习丰富的视觉语言关联，这些图像-文本对在互联网上几乎无限量地可用，并能够使用单个 VLM 对各种视觉识别任务进行零样本预测。本文对用于各种视觉识别任务的视觉语言模型进行了系统回顾，包括：(1) 介绍视觉识别范式发展的背景；(2) VLM 的基础，总结了广泛采用的网络架构、预训练目标和下游任务；(3) VLM 预训练和评估中广泛采用的数据集；(4) 对现有的 VLM 预训练方法、VLM 转移学习方法和 VLM 知识蒸馏方法的回顾和分类；(5) 对所回顾方法的基准测试、分析和讨论；(6) 未来 VL ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

请辩 · 能在币圈活下来的，没有侥幸

昨天

南京日报 · “碰一下钱就没了”？支付宝紧急回应

2 天前

南京日报 · “碰一下钱就没了”？支付宝紧急回应

2 天前

请辩 · 美团凭什么赚这么多钱？

3 天前

白话区块链 · 比特币：全球流动性的“风向标”

3 天前

财宝宝 · 我以前特别喜欢那个小娃娃。没想到已经是大人了 -20240626164506

8 月前

斌叔OKmath · 如何高效英语启蒙斌叔OKmath的微博直播 -20240827205131

6 月前

财宝宝 · 周四要开家长会。泼妇和我在研究几个事情。一，穿-20241104135607

3 月前

新污染物监测与分析 · 重庆大学环境学院ES&T：超短链全氟烷基酸的环境发生和生物浓度-被忽视的全球全氟化合物

3 月前

澎湃新闻 · 第150000000000件，来自拼多多！

3 月前