主要观点总结
本文介绍了一种新的基于区域的视觉语言预训练方法,该方法通过学习图像区域与其描述之间的对齐,提高了在开放词汇目标检测中的性能。该方法通过构建区域描述并利用预训练的CLIP模型对齐区域和文本,从而无需人工标注即可进行区域级对齐。实验结果显示,该方法在COCO和LVIS数据集上的开放词汇目标检测任务中取得了显著的性能提升,并在零样本推理中也表现出良好的结果。该方法为视觉区域理解的视觉语言预训练提供了新的视角。
关键观点总结
关键观点1: 基于区域的视觉语言预训练
本文提出了一种新的方法,通过匹配图像区域和文本描述来学习视觉区域表示,从而在开放词汇目标检测中提高性能。
关键观点2: 区域级对齐无需人工标注
通过构建区域描述并利用预训练的CLIP模型对齐区域和文本,该方法无需人工标注即可进行区域级对齐。
关键观点3: 在开放词汇目标检测中的性能提升
实验结果显示,该方法在COCO和LVIS数据集上的开放词汇目标检测任务中取得了显著的性能提升。
关键观点4: 零样本推理的良好结果
该方法在零样本推理中也表现出令人鼓舞的结果,支持使用大量词汇识别图像区域。
关键观点5: 为视觉区域理解的视觉语言预训练提供新视角
本文的工作为视觉区域理解的视觉语言预训练提供了新的视角和启示。
文章预览
摘要 使用图像-文本对的对比语言-图像预训练 (CLIP) 在零样本和迁移学习设置下都取得了令人印象深刻的图像分类结果。 然而,我们表明,由于领域差异,直接将此类模型应用于识别用于目标检测的图像区域会导致性能下降:CLIP 的训练目标是将整个图像与文本描述匹配,而没有捕捉图像区域和文本片段之间的细粒度对齐。 为了缓解这个问题,我们提出了一种名为 RegionCLIP 的新方法,该方法显著扩展了 CLIP 以学习区域级视觉表示,从而实现图像区域和文本概念之间的细粒度对齐。 我们的方法利用 CLIP 模型将图像区域与模板标题匹配,然后预训练我们的模型以在特征空间中对齐这些区域-文本对。 将我们预训练的模型迁移到开放词汇表目标检测任务时,我们的方法在 COCO 和 LVIS 数据集上分别超越了现有技术水平 3.8 AP50 和 2.2 AP (针对新类别)
………………………………