专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

量子位  · 公众号  · AI  · 2024-10-30 12:57

文章预览

新宇 投稿 凹非寺 量子位 | 公众号 QbitAI GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。 但当前的大部分评测基准仍然具有以下几个缺陷: 多注重于短视频 ,视频长度或视频镜头数不足,难以考察到模型的长时序理解能力; 对模型的考察局限在部分较为简单的任务, 更多细粒度的能力未被大部分基准所涉及到 ; 现有的基准仍可以仅凭单帧图像以获取较高的分数,说明 问题和画面的时序性关联不强 ; 对开放性问题的评估仍旧采用较旧的GPT-3.5 ,打分和人类偏好有较大的偏差且并不准确,容易高估模型性能。 针对这些问题,有没有对应的基准能够较好解决这些问题呢? 在最新的NeurIPS D 2024中由浙江大学联合上海人工智能实验室,上海交通大学和香港中文大学提出的MMBench- ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览