专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

VeCLIP:通过视觉增强的字幕改进CLIP训练

FightingCV  · 公众号  ·  · 2024-12-07 09:00
    

文章预览

摘要 大规模网络爬取数据集对于预训练视觉语言模型(如CLIP)的成功至关重要。  然而,网络爬取的替代文本固有的噪声和潜在的不相关性给实现精确的图像文本对齐带来了挑战。  利用大型语言模型 (LLM) 进行字幕改写的现有方法在 CC3M 和 CC12M 等小型精选数据集上显示出前景。  本研究介绍了一种用于噪声字幕改写的可扩展管道。  与最近的LLM改写技术不同,我们强调将视觉概念融入字幕中,称为 V isual- e nriched  Cap tions (VeCap)。  为了确保数据多样性,我们提出了一种新颖的混合训练方案,该方案优化了替代文本与新生成的 VeCap 的利用。  我们展示了这种方法在大型网络爬取数据集上训练 CLIP 的应用,称为 VeCLIP。  利用这种经济高效的管道,我们轻松地将我们的数据集扩展到名为 VeCap 数据集的 3 亿个样本。  我们的结果显示出图像文本对齐和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览