讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

大型视觉-语言模型的基准评估、应用和挑战:综述

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-01-21 00:10
    

文章预览

25年1月来自马里兰大学的论文“Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey”。 多模态视觉语言模型 (VLM) 已成为计算机视觉和自然语言处理交叉领域的一项变革性技术,使机器能够通过视觉和文本模态感知和推理世界。例如,CLIP [209]、Claude [10] 和 GPT-4V [273] 等模型在视觉和文本数据上表现出强大的推理和理解能力,并在零样本分类 [107] 上击败经典的单模态视觉模型。尽管它们在研究方面取得快速进展,在应用中也越来越受欢迎,但对现有 VLM 研究的全面调查却明显缺乏,特别是对于旨在将 VLM 用于特定领域的研究人员而言。为此,本文从以下方面对 VLM 进行系统的概述:[1] 过去五年 (2019-2024) 开发的主要 VLM 的模型信息;[2] 这些 VLM 的主要架构和训练方法;[3] VLM 的流行基准和评估指标的总结和分类; [4] VLM 的应用,包括 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览