CLIP 走向 3D：利用快速调整实现基于语言的3D 识别

FightingCV · 公众号 · · 2024-12-22 09:00

文章预览

摘要由于其令人印象深刻的零样本能力，CLIP等视觉语言模型已被广泛应用于各种任务。但是，CLIP不适用于提取三维几何特征，因为它仅通过自然语言监督在图像和文本上进行训练。我们致力于解决这一局限性，并提出一个名为CG3D（CLIP Goes 3D）的新框架，其中学习一个三维编码器以展现零样本能力。CG3D使用点云、相应的渲染二维图像和文本的三元组进行训练，并使用自然语言监督。为了在多模态嵌入空间中对齐特征，我们利用对比损失对从三维编码器获得的三维特征以及从CLIP提取的视觉和文本特征进行处理。我们注意到，用于训练CLIP的自然图像和CG3D中渲染的二维图像存在分布差异。试图训练视觉和文本编码器来解释这种差异会导致灾难性遗忘和性能显著下降。为了解决这个问题，我们采用提示微调，并在输入空间中引入可训练参数， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博