专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

GPT-4o差点没及格!首个多任务长视频评测基准,它有亿点难

量子位  · 公众号  · AI  · 2024-06-21 12:56
    

文章预览

MLVU团队 投稿  量子位 | 公众号 QbitAI 难度大升级 的多任务长视频理解评测基准 MLVU 来了! 由智源联合北邮、北大和浙大等多所高校推出。 究竟有多难呢?最终排名第一的 GPT-4o 单选正确率还 不足65% 。 而且研究发现,大部分模型的性能都会 随着视频时长增加显著下降 。 研究进一步证明,提升上下文窗口,提升图像理解能力,以及使用更强大的LLM Backbone对长视频理解的性能具有显著的提升作用。 目前相关论文及数据集已公开,具体细节下面一起看看吧~ MLVU的构建过程 当前流行的Video Benchmark主要针对 短视频 设计,大部分视频的长度都在 1分钟以内 。 且现有评测基准往往专注在 特定领域的视频 (例如电影、第一视角)和 特定的视频评测任务 (例如Captioning,Temporal Perception,Action Understanding)。 此外,现有部分长视频理解评测任务往往 只和局部 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览