专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

新智元  · 公众号  · AI  · 2024-09-16 12:57
    

文章预览

   新智元报道   编辑:LRS 【新智元导读】 MMMU-Pro通过三步构建过程(筛选问题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。 多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提升,例如GPT-4o在大学水平上的多学科多模态理解和推理(MMMU)基准测试中取得了69.1%的准确率。 不过,基准测试结果是否真的能反映模型对多样化主题的深入理解,仍然有争议,或者说模型是否只是利用了统计模式,而非依靠理解和推理的情况下就能得出正确答案? 为了解决这一问题并推动多模态AI评估的边界,MMMU团队对MMMU基准在健壮性和问题难度上进行提升,新基准MMMU-Pro能够更准确、更严格地评估模型在广泛的学科领域内真正的多模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览