大型视觉-语言模型的基准评估、应用和挑战：综述

大语言模型和具身智体及自动驾驶 · 公众号 · · 2025-01-21 00:10

文章预览

25年1月来自马里兰大学的论文“Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey”。多模态视觉语言模型 (VLM) 已成为计算机视觉和自然语言处理交叉领域的一项变革性技术，使机器能够通过视觉和文本模态感知和推理世界。例如，CLIP [209]、Claude [10] 和 GPT-4V [273] 等模型在视觉和文本数据上表现出强大的推理和理解能力，并在零样本分类 [107] 上击败经典的单模态视觉模型。尽管它们在研究方面取得快速进展，在应用中也越来越受欢迎，但对现有 VLM 研究的全面调查却明显缺乏，特别是对于旨在将 VLM 用于特定领域的研究人员而言。为此，本文从以下方面对 VLM 进行系统的概述：[1] 过去五年 (2019-2024) 开发的主要 VLM 的模型信息；[2] 这些 VLM 的主要架构和训练方法；[3] VLM 的流行基准和评估指标的总结和分类； [4] VLM 的应用，包括 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博