文章预览
Abstract CLIP 和 Segment Anything Model(SAM)是卓越的视觉基础模型(VFMs)。SAM 在各种领域的分割任务中表现出色,而 CLIP 以其零样本识别能力而闻名。本文深入探讨了将这两种模型整合到一个统一框架中的方法。具体而言,我们引入了开放词汇表 SAM(Open-Vocabulary SAM),一种受 SAM 启发的模型,旨在同时进行交互式分割和识别,并利用两个独特的知识转移模块:SAM2CLIP 和 CLIP2SAM。前者通过蒸馏和可学习的变压器适配器将 SAM 的知识适配到 CLIP 中,而后者则将 CLIP 的知识转移到 SAM 中,增强其识别能力。在各种数据集和检测器上的广泛实验表明,开放词汇表 SAM 在分割和识别任务中都表现出色,显著优于简单组合 SAM 和 CLIP 的天真基线。此外,在图像分类数据训练的帮助下,我们的方法可以分割和识别大约22,000个类别。 代码地址: https://github.com/HarborYuan/ovsam
………………………………