专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
今天看啥  ›  专栏  ›  我爱计算机视觉

E.T. Bench,一个大规模,高质量,场景开放的事件级视频时序理解测试基准,专注于长视频和多事件视频的细粒度时序理解

我爱计算机视觉  · 公众号  ·  · 2024-11-01 12:36
    

文章预览

关注公众号,发现CV技术之美 本篇分享论文 E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding ,提出E.T. Bench,一个大规模,高质量,场景开放的事件级视频时序理解测试基准,专注于长视频和多事件视频的细粒度时序理解。 论文链接:https://arxiv.org/abs/2409.18111 代码链接:https://github.com/PolyU-ChenLab/ETBench 1.引言 多模态大模型的出现引发了视觉-语言理解领域的重大范式转变。多模态大模型通过融合先进的视觉编码器与大语言模型,获得了优越的多模态感知和推理能力。 为了全面地评估这些模型的能力,诸多图像/视频理解测试基准被构建出来。其中,视频理解测试基准上的测试结果表明,多模态大模型已经在视频理解任务上展现出了巨大潜力。 然而,现有视频理解测试基准主要依赖视频级问答评测模型表现,缺乏细粒度的事件级问答,这使得它 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览