专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

ProtoCLIP:原型对比语言图像预训练

FightingCV  · 公众号  ·  · 2024-11-26 10:13
    

文章预览

摘要 对比语言图像预训练 (CLIP) 已经受到了广泛关注,因为它学习到的表征可以很好地迁移到各种下游任务中。  在 CLIP 模型的训练过程中,InfoNCE 目标函数对齐正样本图像-文本对,并分离负样本对。  我们展示了在此过程中潜在的表征分组效应:InfoNCE 目标函数通过随机出现的模态内锚点间接地将语义相似的表征分组在一起。  基于此理解,本文介绍了 原型 对比 语言 图像 预训练  (ProtoCLIP) 来增强这种分组,提高其效率并增强其对模态差距的鲁棒性。  具体来说,ProtoCLIP 在图像和文本空间之间建立了原型级别的判别,有效地迁移了更高层次的结构知识。  此外,提出了 原型 反向 翻译  (PBT) 来将表征分组与表征对齐解耦,从而在较大的模态差距下有效学习有意义的表征。  PBT 还使我们能够引入具有更丰富先验语言知识的额外外部教师。  ProtoCL ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览