专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
宝玉xp  ·  转发微博-20250207011257 ·  15 小时前  
宝玉xp  ·  转:Paul ... ·  昨天  
宝玉xp  ·  Deep Research ... ·  3 天前  
今天看啥  ›  专栏  ›  机器之心

给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

机器之心  · 公众号  · AI  · 2024-08-11 12:10
    

文章预览

机器之心报道 编辑:佳琪 自从 Sora 发布以来,AI 视频生成领域变得更加「热闹」了起来。过去几个月,我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。 和以往一眼就能识破是 AI 生成的模型不太一样,这批视频大模型可能是我们所见过的「最好的一届」。 然而,视频大语言模型(LLM)惊艳表现的背后离不开庞大且经过精细标注的视频数据集,这需要花费相当高的成本。近期研究领域也涌现了一批无需额外训练的创新方法:采用训练好的图像大语言模型,直接用于视频任务的处理,这样就绕开了「昂贵」的训练过程。 此外,现有大多视频 LLM 存在两个主要缺点:(1)它们只能处理有限帧数的视频输入,这使得模型难以捕捉视频中细微的空间和时间内容;(2)它们缺少时间建模设计,而是简单地将视频特征输入到 LLM 中,完全依赖于 LLM 对 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览