专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
今天看啥  ›  专栏  ›  我爱计算机视觉

最强GPT-4o也才刚及格?智源联合多所高校推出首个多任务长视频评测基准MLVU

我爱计算机视觉  · 公众号  ·  · 2024-06-13 13:28
    

文章预览

关注公众号,发现CV技术之美 当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。 因此,智源联合北邮、北大和浙大等多所高校提出MLVU:首个多任务长视频理解评测基准。MLVU拥有充足且灵活可变的的视频长度、包含多种长视频来源、涵盖多个不同维度的长视频理解任务。通过对20个最新的流行MLLM评测发现,排名第一的GPT-4o的单选正确率不足65%,揭示了现有MLLM在长视频理解任务上仍然面临重大挑战。 我们的实证研究还探讨了多个影响MLLM长视频理解能力的关键因素,期待MLVU能够推动社区对长视频理解研究的发展。 论文标题:MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding 论文链接:https://arxiv.org/abs/2406.04264 项目链接:https://github.com/FlagOpen/FlagEmbedding/tree/master ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览