文章预览
在复杂场景中,视频帧间同一目标的稳健关联对于许多应用至关重要,尤其是多目标跟踪(MOT)。 当前方法主要依赖于标注的特定领域视频数据集,这限制了学习到的相似性嵌入在跨领域泛化能力。 作者提出了MASA,一种新颖的鲁棒实例关联学习方法,能够在无需跟踪标签的情况下跨不同领域匹配视频中的任何目标。利用来自Segment Anything Model(SAM)的丰富目标分割,MASA通过穷举数据转换学习实例级对应关系。 作者将SAM输出视为密集目标区域 Proposal ,并从大量图像集中学习匹配这些区域。 作者进一步设计了一个通用的MASA Adapter ,它可以与基础分割或检测模型配合使用,并使它们能够跟踪任何检测到的目标。这些组合在复杂领域展现出了强大的零样本跟踪能力。 在多个具有挑战性的MOT和MOTS基准上的广泛测试表明,仅使用未标注的静态图像,所提
………………………………