今天看啥  ›  专栏  ›  机器之心

ECCV 2024 | 比基准高30%,媲美Gemini 1.5 Pro,基于记忆的视频理解智能体来了

机器之心  · 公众号  · AI  · 2024-09-05 21:17

文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 视频理解仍然是计算机视觉和人工智能领域的一个主要挑战。最近在视频理解上的许多进展都是通过端到端地训练多模态大语言模型实现的[1,2,3]。然而,当这些模型处理较长的视频时,内存消耗可能会显著增加,甚至变得难以承受,并且自注意力机制有时可能难以捕捉长程关系 [4]。这些问题阻碍了将端到端模型进一步应用于视频理解。 为解决这一问题,北京通用人工智能研究院联合北京大学的研究人员提出了 首个基于记忆和工具使用的视频理解智能体VideoAgent,在视频 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览