专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答

新智元 · 公众号 · AI · 2024-09-16 12:57

文章预览

新智元报道编辑：LRS 【新智元导读】 MMMU-Pro通过三步构建过程（筛选问题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语言模型（MLLMs）在各个排行榜上展现的性能不断提升，例如GPT-4o在大学水平上的多学科多模态理解和推理（MMMU）基准测试中取得了69.1%的准确率。不过，基准测试结果是否真的能反映模型对多样化主题的深入理解，仍然有争议，或者说模型是否只是利用了统计模式，而非依靠理解和推理的情况下就能得出正确答案？为了解决这一问题并推动多模态AI评估的边界，MMMU团队对MMMU基准在健壮性和问题难度上进行提升，新基准MMMU-Pro能够更准确、更严格地评估模型在广泛的学科领域内真正的多模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

黄建同学 · 也许不久的将来，就会有一个3D数字世界。能完全复刻我们的物理世界-20241227180026

昨天

机器之心 · 围猎Suno！国产AI音乐三巨头：华语创作称雄，MV一键生成全球首创

2 天前

爱可可-爱生活 · 恭喜@超尖刺突破等3名用户获得【《JavaScript高级程序-20241225120444

3 天前

爱可可-爱生活 · FineMath：精心打造的数学教育内容数据集。包含了两个版本:-20241225120516

3 天前

黄建同学 · 哪个AI IDE更适合你 #ai创造营##程序员# 1. Bol-20241225074001

4 天前

全球智能汽车供应链 · 【智车周刊】这个电车圈的大佬竟然阻止了想造纯电超跑的布加迪/被低估了！小鹏MONA 03首秀：它比你想得更能打...

5 月前

粥左罗 · 工作能力强的人，凡事都有方法论

5 月前