专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

更精细的解耦评估!VisualSimpleQA开创视觉语言大模型事实问答评测新范式

PaperWeekly  · 公众号  · 科研  · 2025-03-20 12:37
    

文章预览

如何有效评估大型视觉语言模型(LVLMs)的事实问答能力?传统的端到端评估基准是否是最佳方案?如何有效标注具有挑战性的多模态事实问答基准? VisualSimpleQA 提供了一套解决方案。 有效评估 LVLMs 在 fact-seeking QA 任务中的表现对于其可靠性研究至关重要。目前,主流评测基准多采用端到端评估,即直接对比标准答案和模型生成的多模态问题的答案。 然而,模型由多个模态模块组成,例如用于视觉特征提取的 ViT 和处理文本知识的 LLM。因此,模型产生的错误可能源于视觉识别不准确、文本知识不足,或二者共同作用。仅依赖端到端评估难以明确模型的弱点模块,因此,对模型的事实问答能力进行解耦评估尤为重要。 为此,团队提出了面向事实查询的多模态评测基准 VisualSimpleQA,包含 500 条人工标注的高质量评测样本,其主要优势包括: 简明的解 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览