MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答

机器学习研究组订阅 · 公众号 · AI · 2024-09-16 17:49

文章预览

多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提升，例如GPT-4o在大学水平上的多学科多模态理解和推理（MMMU）基准测试中取得了69.1%的准确率。不过，基准测试结果是否真的能反映模型对多样化主题的深入理解，仍然有争议，或者说模型是否只是利用了统计模式，而非依靠理解和推理的情况下就能得出正确答案？为了解决这一问题并推动多模态AI评估的边界，MMMU团队对MMMU基准在健壮性和问题难度上进行提升，新基准MMMU-Pro能够更准确、更严格地评估模型在广泛的学科领域内真正的多模态理解和推理能力。论文链接： https://arxiv.org/abs/2409.02813 MMMU-Pro的构建过程包括三步： 1. 过滤掉纯文本模型可回答的问题； 2. 由人类专家将候选选项增加到 10 个，以减少模型蒙对答案的概率； 3. 引入纯视觉输入设置，即问题直接写在图像中，既要求 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

量子位 · 乌镇最火AI议题，原来答案藏在这份报告里

9 小时前

爱可可-爱生活 · //@爱可可-爱生活:AI编程正在推动软件开发从“编码-实现”模-20241123091817

2 天前

宝玉xp · 谁正在赚钱？通过分析 Stripe 支付流量，发现谁正在赚钱wh-20241120130459

5 天前

黄建同学 · Suno v4 🔥正式发布↓ #ai##音乐# 且通过了**图-20241120093850

5 天前

黄建同学 · CjZ分享的 AI 工具使用经验↓#ai##程序员# ——我每天-20241119120400

6 天前

国企求职网 · 国家能源集团分公司2024年招聘（新出岗位）

4 月前

CV技术指南 · ELSA 利用分层 N:M 稀疏性实现 Vision Transformer 加速！

1 月前