文章预览
大模型智能|分享 来源 | 3D视觉工坊 00 这篇文章干了啥? 传统的多目标跟踪(MOT)任务旨在逐帧跟踪所有特定类别的对象,这在视频理解中起着至关重要的作用。尽管已经取得了重大进展,但它存在着灵活性和泛化能力差的问题。为了解决这个问题,最近提出了参考多目标跟踪(RMOT)任务,其核心思想是通过语言描述指导多目标跟踪。例如,如果我们将"左侧有移动的汽车"作为查询输入,跟踪器将预测与描述相对应的所有轨迹。然而,由于灵活性的高代价,模型需要同时执行检测、关联和引用,因此,平衡子任务之间的优化成为一个关键问题。 为了完成这项任务,现有方法(例如TransRMOT)简单地将文本模块集成到现有的跟踪器中。然而,这种框架有几个固有的缺点:i)任务竞争。一些MOT方法已经揭示了检测和关联之间的优化竞争。在RMOT中,添
………………………………