专栏名称: CVer
一个专注侃侃计算机视觉方向的公众号。计算机视觉、图像处理、机器学习、深度学习、C/C++、Python、诗和远方等。
今天看啥  ›  专栏  ›  CVer

ACM MM 2024|破解长尾多标签分类难题!CPRFL:基于CLIP的新方案

CVer  · 公众号  ·  · 2024-09-09 13:05
    

主要观点总结

本文介绍了一种新颖的提示学习方法——类别提示精炼特征学习(CPRFL),用于长尾多标签图像分类(LTMLC)。该方法利用预训练的CLIP模型提取类别语义,建立头部和尾部类别之间的语义关联。通过渐进式双路径反向传播机制精炼提示,并采用非对称损失解决正负样本不平衡问题。实验结果表明,该方法在LTMLC任务中显著优于最近先进方法。

关键观点总结

关键观点1: CPRFL的提出背景

现实世界中数据通常呈现长尾分布,多标签分类是常见场景。LTMLC面临头尾不平衡和多物体识别难题,传统方法难以有效处理。

关键观点2: CPRFL的主要思想

利用CLIP的文本编码器提取类别语义,建立头部和尾部类别间的语义关联。通过类别提示实现类别特定视觉表示的解耦,采用渐进式双路径反向传播机制精炼提示,并采用非对称损失解决样本不平衡问题。

关键观点3: CPRFL的贡献

提出了新颖的提示学习方法CPRFL,有效缓解LTMLC中的头尾不平衡问题,实现了针对数据特征的量身定制解决方案。通过大量实验验证了方法的有效性,并在公开数据集上取得了显著性能提升。


文章预览

点击下方 卡片 ,关注“ CVer ”公众号 AI/CV重磅干货,第一时间送达 点击进入—> 【Mamba/多模态/扩散】交流群 添加微信号:CVer111,小助手会拉你进群! 扫描下方二维码,加入CVer学术星球 ! 可以获得最新顶会/顶刊上的论文idea 和 CV从入门到精通资料,及最前沿应用 !发论文/搞科研/涨薪,强烈推荐! 转载自:晓飞的算法工程笔记 |作者:Ziyu Guo 导读   本文 提出了一种新 颖的提示学习方法,称为类别提示精炼特征学习(CPRFL),用于长尾多标签图像分类(LTMLC)。这是首次利用类别语义关联来缓解LTMLC中的头尾不平衡问题,提供了一种针对数据特征量身定制的开创性解决方案。 现实世界的数据通常表现为长尾分布,常跨越多个类别。这种复杂性突显了内容理解的挑战,特别是在需要长尾多标签图像分类( LTMLC )的场景中。在这些情况下,不平 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览