小红书&上交提出多模态大模型新基准WorldSense！Gemini 1.5 Pro准确率仅48%

CVer · 公众号 · · 2025-02-18 13:05

文章预览

点击下方卡片，关注“ CVer ”公众号 AI/CV重磅干货，第一时间送达点击进入—> 【顶会/顶刊】投稿交流群添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea 和 CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！ WorldSense团队投稿转载自：量子位（QbitAI）多模态大模型理解真实世界的水平到底如何？有新基准来衡量了。就在最近，小红书和上海交通大学联合提出 WorldSense ，一个全新的基准测试，用来评估多模态大模型（MLLMs）的多模态真实场景理解能力。基于WorldSense，团队对各种先进的MLLMs进行了广泛评估，结果发现：开源的视频-音频模型在该基准上的准确率仅约25% ，几乎等同于随机猜测；即使是表现最好的专有模型 Gemini 1.5 Pro，准确率也只有48% ，远 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博