专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

AI理解27分钟长视频超越GPT-4o,港理工新国立开源新框架:角色化推理+链式LoRA

量子位  · 公众号  · AI  · 2025-04-02 14:14
    

文章预览

VideoMind团队 投稿 量子位 | 公众号 QbitAI AI能像人类一样理解长视频。 港理工、新加坡国立团队推出VideoMind框架,核心创新在于 角色化推理 (Role-based Reasoning)和 链式LoRA (Chain-of-LoRA)策略。 相关论文已上传arXiv,代码和数据全部开源。 随着视频数据量的激增,如何理解和推理长视频中的复杂场景和事件成为了多模态人工智能研究的热点。不同于静态图像,视频不仅包含视觉信息,还包含时间维度上的动态变化,这要求模型在理解视频时不仅要识别画面中的物体和场景,还要理解这些物体和场景如何随时间变化和相互作用。 传统的基于文本和图像的推理模型(如OpenAI o1, DeepSeek R1等)往往无法应对这种复杂的时间维度推理任务。 VideoMind框架 区别于文本和图片,长视频理解难以用传统的单次感知 + 纯文字推理实现。 相比之下,人类在理解长视频 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览