专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

CDUL:基于CLIP的用于多标签图像分类的无监督学习

FightingCV  · 公众号  ·  · 2025-03-14 09:00
    

文章预览

摘要 本文提出了一种基于CLIP的无标注多标签图像分类无监督学习方法,该方法包括三个阶段:初始化、训练和推理。  在初始化阶段,我们充分利用强大的CLIP模型,并提出了一种新方法来扩展CLIP,基于全局-局部图像-文本相似性聚合进行多标签预测。  更具体地说,我们将每个图像分割成片段,并利用CLIP生成整个图像(全局)以及每个片段(局部)的相似性向量。  然后引入一个相似性聚合器来利用全局和局部相似性向量。  在训练阶段,使用聚合的相似性分数作为初始伪标签,我们提出一个优化框架来训练分类网络的参数并改进未观察到的标签的伪标签。  在推理过程中,仅使用分类网络来预测输入图像的标签。  广泛的实验表明,我们的方法在MS-COCO、PASCAL VOC 2007、PASCAL VOC 2012和NUS数据集上优于最先进的无监督方法,甚至达到了与弱监督分 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览