SlowFast-LLaVA ｜ Apple团队提出视频大语言模型的强大免训练基线

FightingCV · 公众号 · · 2024-09-25 09:00

文章预览

摘要我们提出了 S low F ast-LLaVA（简称 SF-LLaVA），这是一个无需训练的视频大型语言模型 (LLM)，它可以同时捕获详细的空间语义和长距离时间上下文，而不会超过常用 LLM 的符元预算。这是通过使用视频 LLM 的双流 SlowFast 输入设计来实现的，该设计可以有效地聚合来自采样帧的特征。具体而言，Slow 通路以较低的帧速率提取特征，同时尽可能地保留空间细节 ( 例如，带有 12 × 24 个符元)，而 Fast 通路则以较高的帧速率运行，但使用更大的空间池化步长 ( 例如，将 6 × 下采样) 来关注运动线索。因此，这种设计使我们能够充分捕获有利于详细视频理解的空间和时间特征。实验结果表明，SF-LLaVA 在各种视频任务上都优于现有的免训练方法。在某些基准测试中，与在视频数据集上进行微调的最先进的视频大语言模型相比，它实现了相当甚 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

电商行业 · 雷军大爆发，小米市值打破历史记录

9 小时前

众视AsiaOTT · 持续发力抖音电商2024年累计清理“水军”账号160万个

17 小时前

说财猫 · 是谁逼得刘强东，又做外卖又干滴滴啊？

昨天

江玉燕 · 【Shopee】长期未登录会如何？

昨天

江玉燕 · 【Shopee】长期未登录会如何？

昨天

电子商务研究中心 · 2025直播电商税务合规茶话会召开在即抓紧报名！

2 天前

股市刀锋 · 【美股又新高了，A股又保卫战了，大家都有美好的未来！】昨晚美股继-20240613221932

8 月前

JitLogistics · 免费参观倒计时5天：亚洲物流双年展

8 月前

市界 · 小红书卖老股，估值1200亿

7 月前

中国化学三化建 · 满弓发力奋战当“夏”｜中化三建一线快讯

6 月前