文章预览
摘要。 近年来,CLIP等预训练视觉语言模型在行人重识别(ReID)应用中展现出巨大潜力。 然而,它们在可泛化行人重识别任务中的表现仍然不够理想。 CLIP预训练中使用的海量且多样化的图像-文本对可能导致某些细粒度特征的缺乏或不足。 面对这些挑战,我们提出了一种基于深度优先搜索的难样本挖掘方法DFGS(深度优先图采样器),旨在提供足够具有挑战性的样本,以增强CLIP提取细粒度特征的能力。 DFGS可应用于CLIP中的图像编码器和文本编码器。 通过利用CLIP强大的跨模态学习能力,我们旨在应用DFGS方法提取具有挑战性的样本并形成具有高判别难度的迷你批次,为图像模型提供更有效和更具有挑战性的样本,这些样本难以区分,从而增强模型区分个人的能力。 我们的结果表明,与其他方法相比,DFGS取得了显著改进,证实了DFGS在提供具有挑
………………………………