开源视频版GPT-4o？快速记忆，实时问答，拿下CVPR'24长视频问答竞赛冠军

机器学习研究组订阅 · 公众号 · AI · 2024-07-07 20:22

文章预览

基于 ChatGPT、LLAMA、Vicuna [1, 2, 3] 等大语言模型（Large Language Models，LLMs）的强大理解、生成和推理能力，多模态大模型（Large Multimodal Models，LMMs）在图片视觉理解任务上取得了成功，如 MiniGPT-4、LLAVA [4, 5, 6] 等等。更进一步地，一些工作将 LMM 强大的图片理解能力迁移到视频领域，使得视频内容理解和推理成为可能，例如 Video-ChatGPT、Vista-LLaMA [7, 8] 等。然而，大多数多模态模型仅能对较短的离线视频数据进行文本描述或问答，对于长视频和在线视频流的理解能力比较有限。让模型具有理解长视频的能力是通往更智能的模型甚至达到 AGI 的路径。这一研究空白限制了多模态大模型在许多在线场景中的实际应用，如具身人工智能、智能监控系统等。针对这点，一些工作 [9, 10] 开始研究如何增强对长视频的理解能力，大多基于帧采样和特征融合的方法。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博