文章预览
介绍 视频理解是多模态大型语言模型(MLLMs)发展的关键一步。随着视频中心的 MLLMs 模型的提出,需要有更全面的基准测试来评估这些模型在视频理解方面的能力,包括 细粒度理解 、 时空建模 以及 长上下文处理 等。传统的视频基准测试通常需要基于目标能力精心选择视频,并进行繁琐的查询-响应对标注,以匹配特定视频内容。这个过程不仅挑战重重,而且资源消耗巨大。 为了开发和评估视频理解模型,需要一个既能够扩展到不同视频源和长度,又能够高效运行的基准测试框架。本论文提出了利用合成视频构建视频理解测试基准的方法 VideoNIAH 。这种方法可以解耦视频内容与其对应的查询-响应对,通过插入无关的图像或文本“针”来生成测试数据,从而提高测试的多样性和效率。 同时,使用与现实视频内容相对应的查询-响应对可能存在数据
………………………………