今天看啥  ›  专栏  ›  AI大模型学习基地

大语言模型的视频推理分割--ViLLa

AI大模型学习基地  · 公众号  ·  · 2024-08-03 23:23
    

文章预览

ViLLa(Video Reasoning Segmentation with Large Language Model) 焦于视频理解中的一个新颖而具有挑战性的任务——视频推理分割。传统视频感知模型往往受限于对显式文本描述或预定义类别的依赖,缺乏理解用户隐含意图的能力,尤其是在处理复杂物体运动的视频场景中。为此,论文提出了视频推理分割任务,旨在根据复杂的文本查询输出视频中目标实例的分割掩码序列。不同于常规的参照视频对象分割,该任务要求模型能够处理复杂的实例描述,涉及深层次的推理和世界知识,以及物体运动信息的捕捉。为推动这一领域的研究进展,作者们构建了一个视频推理分割基准,并开发了 ViLLa 模型,该模型融合了大型语言模型的语言生成能力,同时具备检测、分割和跟踪视频中多个实例的能力。通过引入时间感知上下文聚合模块和视频帧解码器, ViLLa 成功地建立 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览