文章预览
摘要 我们提出了 S low F ast-LLaVA(简称 SF-LLaVA),这是一个无需训练的视频大型语言模型 (LLM),它可以同时捕获详细的空间语义和长距离时间上下文,而不会超过常用 LLM 的符元预算。 这是通过使用视频 LLM 的双流 SlowFast 输入设计来实现的,该设计可以有效地聚合来自采样帧的特征。 具体而言,Slow 通路以较低的帧速率提取特征,同时尽可能地保留空间细节 ( 例如, 带有 12 × 24 个符元),而 Fast 通路则以较高的帧速率运行,但使用更大的空间池化步长 ( 例如, 将 6 × 下采样) 来关注运动线索。 因此,这种设计使我们能够充分捕获有利于详细视频理解的空间和时间特征。 实验结果表明,SF-LLaVA 在各种视频任务上都优于现有的免训练方法。 在某些基准测试中,与在视频数据集上进行微调的最先进的视频大语言模型相比,它实现了相当甚
………………………………