突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

量子位 · 公众号 · AI · 2024-10-30 12:57

文章预览

新宇投稿凹非寺量子位 | 公众号 QbitAI GPT-4o 四月发布会掀起了视频理解的热潮，而开源领军者Qwen2也对视频毫不手软，在各个视频评测基准上狠狠秀了一把肌肉。但当前的大部分评测基准仍然具有以下几个缺陷：多注重于短视频，视频长度或视频镜头数不足，难以考察到模型的长时序理解能力；对模型的考察局限在部分较为简单的任务，更多细粒度的能力未被大部分基准所涉及到；现有的基准仍可以仅凭单帧图像以获取较高的分数，说明问题和画面的时序性关联不强；对开放性问题的评估仍旧采用较旧的GPT-3.5 ，打分和人类偏好有较大的偏差且并不准确，容易高估模型性能。针对这些问题，有没有对应的基准能够较好解决这些问题呢？在最新的NeurIPS D 2024中由浙江大学联合上海人工智能实验室，上海交通大学和香港中文大学提出的MMBench- ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【[243星]BadWebsiteBlocklist：能帮你过滤-20250116140505

昨天

黄建同学 · HeyGen发布的这个报告《How growing AI sen-20250116131157

昨天

宝玉xp · 回复@Marieestest:只有给别人（包括AI）讲东西的时候-20250116000105

2 天前

爱可可-爱生活 · 【[216星]CodeGate：AI编程助手的隐私和安全守护者，-20250115190426

2 天前

爱可可-爱生活 · 「让听众保持注意力的五条黄金法则」如何让听众全程保持注意力？这是-20250115195830

2 天前

Lacan心理 · 新手心理咨询师互助实践项目招募通知（第50期）！

4 月前

WAGO万可 · 汇聚榜样力量 | 万可荣膺2024 DMSM金营奖创新营销奖

2 月前

科学前沿阵地 · 北航程群峰团队Sci. Adv：大行程、径向取向的MXene复合纤维拉伸人工肌肉

4 天前