文章预览
MLVU团队 投稿 量子位 | 公众号 QbitAI 难度大升级 的多任务长视频理解评测基准 MLVU 来了! 由智源联合北邮、北大和浙大等多所高校推出。 究竟有多难呢?最终排名第一的 GPT-4o 单选正确率还 不足65% 。 而且研究发现,大部分模型的性能都会 随着视频时长增加显著下降 。 研究进一步证明,提升上下文窗口,提升图像理解能力,以及使用更强大的LLM Backbone对长视频理解的性能具有显著的提升作用。 目前相关论文及数据集已公开,具体细节下面一起看看吧~ MLVU的构建过程 当前流行的Video Benchmark主要针对 短视频 设计,大部分视频的长度都在 1分钟以内 。 且现有评测基准往往专注在 特定领域的视频 (例如电影、第一视角)和 特定的视频评测任务 (例如Captioning,Temporal Perception,Action Understanding)。 此外,现有部分长视频理解评测任务往往 只和局部
………………………………