文章预览
半监督语义分割(Semi-supervised semantic segmentation, SSS)的目标是利用便宜的无标签图像学习丰富的视觉知识,以提高语义分割能力。在最近的的工作中,UniMatch [1]极大地改进了其先驱,通过放大弱到强的一致性正则化实践。后续的工作通常遵循类似的工作流程,并提出各种精致的设计。 尽管已经取得了进步,即使在大量强大的视觉模型四训练中,几乎所有的SSS工作仍然坚持1)使用过时的ResNet编码器进行小型ImageNet-1K预训练,2)在简单Pascal和Cityscapes数据集上进行评估。 在本工作中,作者认为,有必要将SSS的 Baseline 从基于ResNet的编码器切换到更强大的ViT基编码器(例如,DINOv2),这些编码器在大规模数据上进行预训练。对编码器进行简单的更新(即使使用2倍较少的参数)可以带来比仔细设计方法更大的改进。 在这个有竞争力的 Baseline 上,作者提出
………………………………