专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

大规模视觉-语言模型的基准、评估、应用与挑战

专知  · 公众号  ·  · 2025-02-11 11:00
    

文章预览

多模态视觉语言模型(VLMs)作为一种变革性技术,出现在计算机视觉与自然语言处理的交叉领域,使得机器能够通过视觉和文本两种模态感知和推理世界。例如,像CLIP [213]、Claude [10] 和 GPT-4V [276] 等模型,在视觉和文本数据上展示了强大的推理和理解能力,并在零-shot 分类任务中超过了传统的单模态视觉模型 [108]。尽管在研究中的快速进展和在应用中的日益普及,关于VLM的现有研究的综合综述仍然显著缺乏,特别是对于那些希望在特定领域利用VLM的研究者。为此,我们在以下几个方面提供了VLM的系统性概述:[1] 过去五年(2019-2024)中开发的主要VLM模型的信息;[2] 这些VLM的主要架构和训练方法;[3] 对VLM的流行基准和评估指标的总结和分类;[4] VLM的应用,包括具身智能体、机器人技术和视频生成;[5] 当前VLM面临的挑战和问题,如幻觉、 fairness(公 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览