文章预览
多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提升,例如GPT-4o在大学水平上的多学科多模态理解和推理(MMMU)基准测试中取得了69.1%的准确率。 不过,基准测试结果是否真的能反映模型对多样化主题的深入理解,仍然有争议,或者说模型是否只是利用了统计模式,而非依靠理解和推理的情况下就能得出正确答案? 为了解决这一问题并推动多模态AI评估的边界,MMMU团队对MMMU基准在健壮性和问题难度上进行提升,新基准MMMU-Pro能够更准确、更严格地评估模型在广泛的学科领域内真正的多模态理解和推理能力。 论文链接: https://arxiv.org/abs/2409.02813 MMMU-Pro的构建过程包括三步: 1. 过滤掉纯文本模型可回答的问题; 2. 由人类专家将候选选项增加到 10 个,以减少模型蒙对答案的概率; 3. 引入纯视觉输入设置,即问题直接写在图像中,既要求
………………………………