ReferDINO：基于视觉基础模型的视频对象指称分割

FightingCV · 公众号 · · 2025-02-12 09:00

文章预览

摘要视频对象指称分割 (RVOS) 旨在根据文本描述分割整个视频中的目标对象。尽管近年来取得了显著进展，但由于其有限的视频语言理解能力，目前的 RVOS 模型仍然难以处理复杂的物体描述。为了解决这一限制，我们提出了 ReferDINO ，这是一个端到端的 RVOS 模型，它继承了预训练视觉基础模型强大的视觉语言理解能力，并进一步赋予了有效的时空理解和目标分割能力。在 ReferDINO 中，我们为有效地将基础模型应用于 RVOS 做出了三项技术创新： 1) 一种目标一致性时间增强器，它利用预训练的目标-文本表示来增强时间理解和目标一致性； 2) 一种基于 grounding 的可变形掩码解码器，它整合文本和 grounding 条件以生成精确的目标掩码； 3) 一种置信度感知查询剪枝策略，它在不影响性能的情况下显著提高了目标解码效率。我们在五个公共 RVOS 基准数 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中科院物理所 · 把整个太平洋倒到一个瓶子里，最后只留下一滴水，就是抓捕这只“幽灵”的难度

7 小时前

环球物理 · 【物理动图】一大波物理教学素材（微视频 + 动图）来袭！

23 小时前

中科院物理所 · 热水和冷水一起放进冰箱，为什么热水能先结冰？物理学家终于有了严格证明

昨天

笔吧评测室 · 23999元，ROG 幻 16 Air 2025 笔记本上架：Ultra 9 285H + 32G + 1T + RTX5080

昨天

环球物理 · 【物理科普】不同波段的雷达尺寸一般是多大？

3 天前

蔻享学术 · 【蔻享书苑】礼享感恩季 | 百部牛津大学出版社英文原版图书九折献礼

4 月前

江南晚报 · 隧道立交封闭时间明确！

1 周前