专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

ICML 2024 Oral | Video-of-Thought:像人一样从感知到认知全面推理视频

将门创投  · 公众号  · 科技创业  · 2024-07-19 08:22

文章预览

最近,新加坡国立大学联合南洋理工大学和哈工深的研究人员共同提出了一个全新的视频推理框架,这也是首次大模型推理社区提出的面向视频的思维链框架(Video-of-Thought, VoT)。视频思维链VoT让视频多模态大语言模型在复杂视频的理解和推理性能上大幅提升。该工作已被ICML 2024录用为Oral paper。 论文标题: Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition  论文链接: https://openreview.net/pdf?id=fO31YAyNbI 项目链接: http://haofei.vip/VoT/ 一、从感知到认知的飞跃 相比于理解和推理静态的图片,在视觉处理社区,推理视频的难度要复杂困难很多,因为视频天然地存在更具挑战的动态时序特性,以及存在更多冗余的视觉内容。过去的视频理解研究多集中于视频的浅层感知,如视频动作识别、动态识别和视频描述生成。然而,这些方法对复杂视频的深 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览