专栏名称: CVer
一个专注侃侃计算机视觉方向的公众号。计算机视觉、图像处理、机器学习、深度学习、C/C++、Python、诗和远方等。
今天看啥  ›  专栏  ›  CVer

ECCV 2024 | VideoAgent:视频理解智能体来了!媲美Gemini 1.5 Pro

CVer  · 公众号  · 科技自媒体  · 2024-09-06 13:05
    

主要观点总结

本文介绍了一种基于记忆和工具使用的视频理解智能体VideoAgent,旨在解决视频理解任务中的长视频处理难题。VideoAgent将视频表示为结构化的记忆,利用大语言模型的推理能力和工具使用能力从记忆中抽取关键信息,实现对视频的理解与问答。文章详细描述了VideoAgent的记忆构建、物体跟踪与识别、问答流程以及实验分析。与多模态大语言模型相比,VideoAgent在多个长视频理解数据集上取得了显著的性能提升。

关键观点总结

关键观点1: 研究背景

随着视频内容的增长,视频理解成为计算机视觉和人工智能领域的挑战之一。近期,通过端到端地训练多模态大语言模型取得了进展,但处理长视频时存在内存消耗大、自注意力机制难以捕捉长程关系等问题。

关键观点2: VideoAgent的主要思想

将视频表示为结构化的记忆,结合大语言模型的推理能力和工具使用能力,从记忆中抽取关键信息以实现视频理解。

关键观点3: 记忆构建

使用预训练的视频文本模型为每2秒的视频片段生成描述文本,反映事件。除文本外,还存储片段的特征,包括文本特征和视觉特征。

关键观点4: 物体跟踪与识别

使用RT-DETR和Byte-track进行物体检测和跟踪。提出基于CLIP特征和DINO-v2特征的物体重识别算法,解决同一物体多次出现被识别为多个物体的问题。

关键观点5: 问答流程

大型语言模型(LLM)将其分解为多个子任务,并调用工具解决。这些工具围绕统一记忆库运作,包括片段描述召回、片段定位、视觉问答和物体记忆查询。LLM整合这些工具的结果,生成对视频问题的回答。

关键观点6: 实验分析

在EgoSchema、WorldQA和NExT-QA等数据集上的实验表明,VideoAgent取得了优于多模态大语言模型的表现,并与最好的闭源模型相媲美。


文章预览

点击下方 卡片 ,关注“ CVer ”公众号 AI/CV重磅干货,第一时间送达 点击进入—> 【Mamba/多模态/扩散】交流群 添加微信号:CVer111,小助手会拉你进群! 扫描下方二维码,加入CVer学术星球 ! 可以获得最新顶会/顶刊上的论文idea 和 CV从入门到精通资料,及最前沿应用 !发论文/搞科研/涨薪,强烈推荐! 转载自:机器之心 视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而,当这些模型处理较长的视频时,内存消耗可能会显著增加,甚至变得难以承受,并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。 为解决这一问题,北京通用人工智能研究院联合北京大学的研究人员提出了 首个基于记忆和工具 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览