专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

挑战当前最难、规模最大多模态评测基准MME-RealWorld，QwenVL-2位列第一但并未及格

我爱计算机视觉 · 公众号 · · 2024-09-11 15:48

文章预览

关注公众号，发现CV技术之美 32 个标注者，29,429 条标注数据，图像平均分辨率 20001500，当前最难最大的纯手工标注图像感知 benchmark 来了！现有模型没有一个在总分上取得 60% 以上的准确率。论文名称：MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans? 论文链接：https://arxiv.org/abs/2408.13257 项目主页：https://mme-realworld.github.io/ 代码链接：https://github.com/yfzhang114/MME-RealWorld 主要发现在真实世界任务上，Qwen2-vl 和 InternVL2 在中文感知和推理任务上表现明显好于闭源模型比如 Claude 3.5，国内用户可以首选这两个。英文版二者的感知能力 Qwen2-vl > InternVL2 > 其他，但是推理还是闭源模型 Claude 3.5 更胜一筹。闭源模型比如 Gpt-4o 对于高分图像的能力被高估了，这方面 GPT-4o 基本上都排不到前三，Gemini-Pro 则更差。所有 MLLMs 在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

上海发布 · 今冬市区气温首度跌破0度，明晨依然“冻”感十足！注意防寒保暖

11 小时前

上海发布 · 【监管】全市市场监管部门开展“俄罗斯商品馆”集中排查整治行动

昨天

上海发布 · 【交通】枫林路（龙华中路-瑞宁路）1月17日12时起全封闭施工

2 天前

上海本地宝 · 冷空气今日抵沪！上海气温连降2波！郊区最低零下3℃！

4 天前

上海发布 · 今天腊八，你喝腊八粥了吗？还有哪些食物能暖身驱寒？

3 天前

自动驾驶之心 · 滴滴出行的轻地图感知技术报告：MapVision

6 月前

国家粮油信息中心 · 黑龙江省大部地区农作物长势良好

4 月前

中核五公司 · 再突破！资质+1

3 周前