文章预览
尽管视频感知模型在近年来取得了显著进展,但它们仍然在很大程度上依赖于明确的文本描述或预先定义的类别,以在执行视频感知任务之前识别目标实例。然而,这些模型未能通过文本输入主动理解和推理用户的意图。 尽管以往的研究尝试探索在图像分割中结合推理的解决方案,但由于视频在物体运动上的复杂性,它们未能对视频进行推理。为了弥合图像与视频之间的差距,在这项工作中,作者提出了一种新的视频分割任务——视频推理分割。 该任务旨在给定一个复杂的输入文本 Query 时,输出分割 Mask 的轨迹片段。更重要的是,为了推动这一未探索领域的研究,作者构建了一个推理视频分割基准。最后,作者介绍了 ViLLa : V ideo reasoning segmentation with L arge L anguage Model,它结合了多模态大型语言模型(LLM)的语言生成能力,同时保留了检测、分
………………………………