GPT-4o差点没及格！首个多任务长视频评测基准，它有亿点难

量子位 · 公众号 · AI · 2024-06-21 12:56

文章预览

MLVU团队投稿量子位 | 公众号 QbitAI 难度大升级的多任务长视频理解评测基准 MLVU 来了！由智源联合北邮、北大和浙大等多所高校推出。究竟有多难呢？最终排名第一的 GPT-4o 单选正确率还不足65% 。而且研究发现，大部分模型的性能都会随着视频时长增加显著下降。研究进一步证明，提升上下文窗口，提升图像理解能力，以及使用更强大的LLM Backbone对长视频理解的性能具有显著的提升作用。目前相关论文及数据集已公开，具体细节下面一起看看吧~ MLVU的构建过程当前流行的Video Benchmark主要针对短视频设计，大部分视频的长度都在 1分钟以内。且现有评测基准往往专注在特定领域的视频（例如电影、第一视角）和特定的视频评测任务（例如Captioning，Temporal Perception，Action Understanding）。此外，现有部分长视频理解评测任务往往只和局部 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 回复@孙亚江://@孙亚江:40岁肯定没问题，我51了还在写，全-20250106004451

昨天

爱可可-爱生活 · 【AIDO：AI驱动的数字生物体，通过多尺度基础模型预测、模拟和-20250105141119

昨天

爱可可-爱生活 · 今日开张，加更一条 -20250104221253

2 天前

宝玉xp · 艹//@黄健楸:这种领导力吗？查看图片 //@宝玉xp:不像是-20250104092550

3 天前

爱可可-爱生活 · Zasper：为数据科学家打造的超级IDE它在性能方面令人印象深-20250103133306

3 天前

太格有物 · 太格玩家｜心理咨询师Miss Yang：48岁成为摄影博主，重新解构生活情绪

4 月前

芒果铺看文记录 · 我怎么又在德赫文里磕到了哈赫？-20240917190108

3 月前

高工智能汽车 · 上半年营收约增5倍，连亏多年，这家公司冲刺「自动驾驶矿卡第一股」

1 月前