专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

识别高分低能,综合性视觉语言理解新基准,五项挑战评估多模态模型的推理能力

量子位  · 公众号  · AI  · 2025-02-26 15:32
    

文章预览

JourneyBench团队 投稿 量子位 | 公众号 QbitAI 多模态模型在学术基准测试中获得高分,到了真实世界应用时却表现不及预期,该如何分辨? 新的综合性视觉语言理解基准 JourneyBench ,利用基于diffusion模型提示生成的图像,并采用一种新颖的人机闭环框架,通过五项具有挑战性的任务来评估多模态模型的推理能力: 多模态链式数学推理 (Multimodal Chain-of-Thought) 多图像视觉问答 (Multi-image VQA) 细粒度跨模态检索 (Fine-grained Cross-modal Retrieval) 包含幻觉触发的开放式视觉问答 (VQA with Hallucination Triggers) 非常见图像的描述 (Unusual Image Captioning) JourneyBench由哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校的团队提出,是Google Deepmind的多模态(Gemini)团队提出的HaloQuest, ECCV 2024的衍生工作。 HaloQuest的第一作者联合哥伦比亚大学、弗吉尼亚理工和加州大学洛杉矶分校构建 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览