专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

香港大学 & 加州大学 & 上海 AI Lab 提出 ViLLa,利用大型语言模型实现视频推理分割 !

arXiv每日学术速递  · 公众号  ·  · 2024-08-01 20:02

文章预览

尽管视频感知模型在近年来取得了显著进展,但它们仍然在很大程度上依赖于明确的文本描述或预先定义的类别,以在执行视频感知任务之前识别目标实例。然而,这些模型未能通过文本输入主动理解和推理用户的意图。 尽管以往的研究尝试探索在图像分割中结合推理的解决方案,但由于视频在物体运动上的复杂性,它们未能对视频进行推理。为了弥合图像与视频之间的差距,在这项工作中,作者提出了一种新的视频分割任务——视频推理分割。 该任务旨在给定一个复杂的输入文本 Query 时,输出分割 Mask 的轨迹片段。更重要的是,为了推动这一未探索领域的研究,作者构建了一个推理视频分割基准。最后,作者介绍了 ViLLa : V ideo reasoning segmentation with L arge L anguage Model,它结合了多模态大型语言模型(LLM)的语言生成能力,同时保留了检测、分 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览