给视频模型安上快慢两只眼睛，苹果免训练新方法秒了一切SOTA

机器之心 · 公众号 · AI · 2024-08-11 12:10

文章预览

机器之心报道编辑：佳琪自从 Sora 发布以来，AI 视频生成领域变得更加「热闹」了起来。过去几个月，我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。和以往一眼就能识破是 AI 生成的模型不太一样，这批视频大模型可能是我们所见过的「最好的一届」。然而，视频大语言模型（LLM）惊艳表现的背后离不开庞大且经过精细标注的视频数据集，这需要花费相当高的成本。近期研究领域也涌现了一批无需额外训练的创新方法：采用训练好的图像大语言模型，直接用于视频任务的处理，这样就绕开了「昂贵」的训练过程。此外，现有大多视频 LLM 存在两个主要缺点：（1）它们只能处理有限帧数的视频输入，这使得模型难以捕捉视频中细微的空间和时间内容；（2）它们缺少时间建模设计，而是简单地将视频特征输入到 LLM 中，完全依赖于 LLM 对 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博