识别高分低能，综合性视觉语言理解新基准，五项挑战评估多模态模型的推理能力

量子位 · 公众号 · AI · 2025-02-26 15:32

文章预览

JourneyBench团队投稿量子位 | 公众号 QbitAI 多模态模型在学术基准测试中获得高分，到了真实世界应用时却表现不及预期，该如何分辨？新的综合性视觉语言理解基准 JourneyBench ，利用基于diffusion模型提示生成的图像，并采用一种新颖的人机闭环框架，通过五项具有挑战性的任务来评估多模态模型的推理能力：多模态链式数学推理 (Multimodal Chain-of-Thought) 多图像视觉问答 (Multi-image VQA) 细粒度跨模态检索 (Fine-grained Cross-modal Retrieval) 包含幻觉触发的开放式视觉问答 (VQA with Hallucination Triggers) 非常见图像的描述 (Unusual Image Captioning) JourneyBench由哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校的团队提出，是Google Deepmind的多模态(Gemini)团队提出的HaloQuest, ECCV 2024的衍生工作。 HaloQuest的第一作者联合哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校构建 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博