文章预览
摘要 随着对CLIP等预训练视觉-语言模型兴趣的增长,最近的研究重点是如何将这些模型适应下游任务。 尽管取得了令人鼓舞的结果,但大多数现有方法都需要所有类别的标注数据,这在现实应用中可能并不适用,因为存在长尾分布和齐普夫定律。 例如,某些类别可能完全缺乏标注数据,例如新兴概念。 为了解决这个问题,我们提出了一种即插即用的生成方法,称为 S ynt H es I zed P rompts ( SHIP ),以改进现有的微调方法。 具体来说,我们遵循变分自动编码器引入一个生成器,该生成器通过将合成的提示和相应的类别名称输入到CLIP的文本编码器来重建视觉特征。 通过这种方式,我们可以轻松地获得剩余仅包含标签的类别的合成特征。 此后,我们通过结合标注特征和合成特征,使用现成的微调方法对CLIP进行微调。 在基础到新颖的泛化、跨数据
………………………………