专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

SlowFast-LLaVA | Apple团队提出视频大语言模型的强大免训练基线

FightingCV  · 公众号  ·  · 2024-09-25 09:00

文章预览

摘要 我们提出了  S low F ast-LLaVA(简称 SF-LLaVA),这是一个无需训练的视频大型语言模型 (LLM),它可以同时捕获详细的空间语义和长距离时间上下文,而不会超过常用 LLM 的符元预算。 这是通过使用视频 LLM 的双流 SlowFast 输入设计来实现的,该设计可以有效地聚合来自采样帧的特征。 具体而言,Slow 通路以较低的帧速率提取特征,同时尽可能地保留空间细节 ( 例如,  带有  12 × 24  个符元),而 Fast 通路则以较高的帧速率运行,但使用更大的空间池化步长 ( 例如,  将  6 ×  下采样) 来关注运动线索。 因此,这种设计使我们能够充分捕获有利于详细视频理解的空间和时间特征。 实验结果表明,SF-LLaVA 在各种视频任务上都优于现有的免训练方法。 在某些基准测试中,与在视频数据集上进行微调的最先进的视频大语言模型相比,它实现了相当甚 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览