专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

ACM MM 2024 Oral | 突破传统方法局限!用语义正确性评估视觉问答生成结果

将门创投  · 公众号  · 科技创业  · 2024-08-27 08:22
    

文章预览

视觉问答(VQA)作为一个成熟的测试领域,在评估模型的视觉理解和语言生成能力方面发挥着重要作用。 然而,现有的 VQA 评估方法存在局限性。 当前VQA评估体系中的“完全匹配”标准,限制了MLLM在生成多样化、创新性回答方面的潜力。 传统分类式评估方法无法充分反映MLLM在视觉问答中的全面理解和生成能力。基于此, 本文提出了一种创新的评估策略,即基于语义相似度的评估方法 。该方法通过比较生成回答与参考答案的深层语义关联,而非简单的文本匹配,来更公正、全面地评价MLLM的性能。 论文标题: Towards Flexible Evaluation for Generative Visual Question Answering  论文地址: http://arxiv.org/abs/2408.00300 项目地址: https://github.com/jihuishan/flexible_evaluation_for_vqa_mm24 一、研究背景 图1. 不同多模态大模型对于同一问题的不同形式的回答 随着多模态大语言模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览