所有大模型都没及格？！挑战当前最难、规模最大多模态评测基准MME-RealWorld来了！

CVer · 公众号 · · 2024-09-10 13:05

文章预览

点击下方卡片，关注“ CVer ”公众号 AI/CV重磅干货，第一时间送达点击进入—> 【Mamba/多模态/扩散】交流群添加微信号：CVer111，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea 和 CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！ 32 个标注者，29,429 条标注数据，图像平均分辨率 2000 1500，当前最难最大的纯手工标注图像感知 benchmark 来了！现有模型没有一个在总分上取得 60% 以上的准确率。论文链接： https://arxiv.org/abs/2408.13257 项目主页： https://mme-realworld.github.io/ 代码链接： https://github.com/yfzhang114/MME-RealWorld 主要发现在真实世界任务上，Qwen2-vl 和 InternVL2 在中文感知和推理任务上表现明显好于闭源模型比如 Claude 3.5，国内用户可以首选这两个。英文版二者的感知能力 Qwen2-vl > Int ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

程序员小灰 · 这场七分钟的线上离婚庭审，让我彻底破防了

2 天前

OSC开源社区 · KaiwuDB 2024：发布2.0版本、benchANT时序榜排名第一

2 天前

程序员之家 · 博士媳妇吐槽：我老公985博士，月薪能有4万，但公司一直在烧钱，他耗不起，面了个专职院校，工资降到8千，他决定的事谁也改变不了！

3 天前

体坛周报 · 聚焦 | 两次战胜伤病两次牵手奥运，等待肖若腾的仍是遗憾

5 月前

农参 · 地标日历 | 宝坻大葱

4 月前

苏商会 · 身家暴涨50亿！60岁连云港“热水器大王”突然走红

3 周前