Apple提出《对比局部化语言-图像预训练》

FightingCV · 公众号 · · 2024-10-29 09:00

文章预览

摘要对比语言-图像预训练 (CLIP) 是一种备受赞誉的训练视觉编码器的方法，用于生成图像/文本表示，从而促进各种应用。最近，CLIP 已被广泛用作多模态大型语言模型 (MLLM) 的视觉骨干，以连接用于语言交互的图像输入。 CLIP 作为视觉-语言基础模型的成功依赖于在图像级别上对齐网络爬取的噪声文本注释。然而，对于需要细粒度视觉表示的下游任务而言，这种标准可能变得不足，尤其是在区域级理解对 MLLM 来说很重要的任务中。在本文中，我们通过几项改进提升了 CLIP 的定位能力。我们提出了一种名为 C ontrastive Loc alized Language-Image Pre-training ( CLOC ) 的预训练方法，通过补充 CLIP 中的区域-文本对比损失和模块来实现。我们提出了一个新概念，即可提示嵌入，其中编码器生成易于转换为区域表示的图像嵌入，前提是给定了 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

笔吧评测室 · 小米马志宇：REDMI Book Pro 2025 笔记本涨价在所难免，但不会因为有国补而额外提高价格

18 小时前

笔吧评测室 · 聊一台“力大砖飞”的笔记本

18 小时前

笔吧评测室 · 不只 RTX 5090 (D)、5070 Ti：英伟达 RTX 5080 显卡也爆出缺 ROPs 案例

昨天

笔吧评测室 · 英伟达 RTX 50 系列 GPU 放弃对 32 位 CUDA 支持，老显卡成 PhysX 游戏“救星”

2 天前

笔吧评测室 · 聊一款「键盘里面塞电脑」的新奇主机

2 天前

新街派生活报 · 接连3人确诊！才30出头，都已无法逆转，这些行为在“埋雷”

8 月前