专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

Apple提出《对比局部化语言-图像预训练》

FightingCV  · 公众号  ·  · 2024-10-29 09:00
    

文章预览

摘要 对比语言-图像预训练 (CLIP) 是一种备受赞誉的训练视觉编码器的方法,用于生成图像/文本表示,从而促进各种应用。  最近,CLIP 已被广泛用作多模态大型语言模型 (MLLM) 的视觉骨干,以连接用于语言交互的图像输入。  CLIP 作为视觉-语言基础模型的成功依赖于在  图像级别  上对齐网络爬取的噪声文本注释。  然而,对于需要细粒度视觉表示的下游任务而言,这种标准可能变得不足,尤其是在  区域级  理解对 MLLM 来说很重要的任务中。  在本文中,我们通过几项改进提升了 CLIP 的定位能力。  我们提出了一种名为  C ontrastive  Loc alized Language-Image Pre-training ( CLOC ) 的预训练方法,通过补充 CLIP 中的区域-文本对比损失和模块来实现。  我们提出了一个新概念,即  可提示嵌入 ,其中编码器生成易于转换为区域表示的图像嵌入,前提是给定了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览