专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

更精细的解耦评估！VisualSimpleQA开创视觉语言大模型事实问答评测新范式

PaperWeekly · 公众号 · 科研 · 2025-03-20 12:37

文章预览

如何有效评估大型视觉语言模型（LVLMs）的事实问答能力？传统的端到端评估基准是否是最佳方案？如何有效标注具有挑战性的多模态事实问答基准？ VisualSimpleQA 提供了一套解决方案。有效评估 LVLMs 在 fact-seeking QA 任务中的表现对于其可靠性研究至关重要。目前，主流评测基准多采用端到端评估，即直接对比标准答案和模型生成的多模态问题的答案。然而，模型由多个模态模块组成，例如用于视觉特征提取的 ViT 和处理文本知识的 LLM。因此，模型产生的错误可能源于视觉识别不准确、文本知识不足，或二者共同作用。仅依赖端到端评估难以明确模型的弱点模块，因此，对模型的事实问答能力进行解耦评估尤为重要。为此，团队提出了面向事实查询的多模态评测基准 VisualSimpleQA，包含 500 条人工标注的高质量评测样本，其主要优势包括：简明的解 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博