专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

ReferDINO:基于视觉基础模型的视频对象指称分割

FightingCV  · 公众号  ·  · 2025-02-12 09:00
    

文章预览

摘要 视频对象指称分割 (RVOS) 旨在根据文本描述分割整个视频中的目标对象。  尽管近年来取得了显著进展,但由于其有限的视频语言理解能力,目前的 RVOS 模型仍然难以处理复杂的物体描述。  为了解决这一限制,我们提出了 ReferDINO ,这是一个端到端的 RVOS 模型,它继承了预训练视觉基础模型强大的视觉语言理解能力,并进一步赋予了有效的时空理解和目标分割能力。  在 ReferDINO 中,我们为有效地将基础模型应用于 RVOS 做出了三项技术创新: 1) 一种目标一致性时间增强器,它利用预训练的目标-文本表示来增强时间理解和目标一致性; 2) 一种基于 grounding 的可变形掩码解码器,它整合文本和 grounding 条件以生成精确的目标掩码; 3) 一种置信度感知查询剪枝策略,它在不影响性能的情况下显著提高了目标解码效率。  我们在五个公共 RVOS 基准数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览