今天看啥  ›  专栏  ›  机器学习研究组订阅

开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR'24长视频问答竞赛冠军

机器学习研究组订阅  · 公众号  · AI  · 2024-07-07 20:22
    

文章预览

基于 ChatGPT、LLAMA、Vicuna [1, 2, 3] 等大语言模型(Large Language Models,LLMs)的强大理解、生成和推理能力,多模态大模型(Large Multimodal Models,LMMs)在图片视觉理解任务上取得了成功,如 MiniGPT-4、LLAVA [4, 5, 6] 等等。更进一步地,一些工作将 LMM 强大的图片理解能力迁移到视频领域,使得视频内容理解和推理成为可能,例如 Video-ChatGPT、Vista-LLaMA [7, 8] 等。 然而,大多数多模态模型 仅能对较短的离线视频数据进行文本描述或问答,对于长视频和在线视频流的理解能力比较有限 。让模型具有理解长视频的能力是通往更智能的模型甚至达到 AGI 的路径。这一研究空白限制了多模态大模型在许多在线场景中的实际应用,如具身人工智能、智能监控系统等。 针对这点,一些工作 [9, 10] 开始研究如何增强对长视频的理解能力,大多基于帧采样和特征融合的方法。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览