挑战当前最难、规模最大多模态评测基准MME-RealWorld，QwenVL-2位列第一但并未及格

机器学习算法与自然语言处理 · 公众号 · · 2024-09-10 00:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | PaperWeekly 32 个标注者，29,429 条标注数据，图像平均分辨率 2000 1500，当前最难最大的纯手工标注图像感知 benchmark 来了！现有模型没有一个在总分上取得 60% 以上的准确率。论文链接： https://arxiv.org/abs/2408.13257 项目主页： https://mme-realworld.github.io/ 代码链接： https://github.com/yfzhang114/MME-RealWorld 主要发现在真实世界任务上，Qwen2-vl 和 InternVL2 在中文感知和推理任务上表现明显好于闭源模型比如 Claude 3.5，国内用户可以首选这两个。英文版二者的感知能力 Qwen2-vl > InternVL2 > 其他，但是推理还是闭源模型 Cla ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

BFC汇谈 · 猪突猛进的离岸CNH掉期点

10 小时前

BFC汇谈 · 猪突猛进的离岸CNH掉期点

10 小时前

说财猫 · 三分之一存款来自五粮液，这家银行太吓人

昨天

说财猫 · 三分之一存款来自五粮液，这家银行太吓人

昨天

金融街老裘 · 明年经济怎么办？

4 天前

游戏葡萄 · 微信小游戏产品总监：季度流水破千万的产品已超240款

5 月前

走读浙中 · 磐安榉溪村获评全球“新可持续城市与人居环境奖”，为2024年全球唯一获得该奖项“乡村类”的村落

1 月前

Dify · Dify v0.14.0：推出异常处理机制，提升工作流稳定性

4 天前