文章预览
点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >> 点击进入→ 自动驾驶之心 『 大语言模型 』 技术交流群 编辑 | 自动驾驶之心 CLIP(Contrastive Language-Image Pre-training)系列模型自推出以来,在多个领域展现了强大的跨模态泛化能力,比如在跨模态检索、图像搜索、图像识别与分类等方面取得了显著的研究成果。 CLIP模型在预训练阶段学习到的通用知识可以迁移到特定的下游任务中,这有助于在缺乏大量标注数据的情况下,提升模型在新任务上的性能。 CLIP的泛化能力使其能够跨足不同的领域和任务,如视频行为识别,即使在没有针对特定任务进行过训练的情况下,也能够表现出良好的性能。 本文总结了CLIP的几大经典应用场景,并梳理了近期发布的一些公众:在局部物体识别、图像生成、音频生成、动作
………………………………