CLIP模型：构建视觉与语言的通用表示

古今医案云平台 · 公众号 · · 2024-09-05 16:00

文章预览

1 算法简介 CLIP（Contrastive Language-Image Pre-Training）模型是一种多模态预训练神经网络，由OpenAI在2021年发布，是从自然语言监督中学习的一种有效且可扩展的方法。CLIP在预训练期间学习执行广泛的任务，包括OCR，地理定位，动作识别，并且在计算效率更高的同时优于公开可用的最佳ImageNet模型。该模型的核心思想是使用大量图像和文本的配对数据进行预训练，以学习图像和文本之间的对齐关系。该模型具有多模态学习的能力，能够同时理解图像和文本两种不同模态的信息，并在它们之间建立联系。CLIP模型在多个领域都展现出了强大的应用潜力，包括图像分类、图像检索、文本生成、多模态搜索等，尤其适用于零样本学习任务，即模型不需要看到新的图像或文本的训练示例就能进行预测。 2 算法原理 CLIP模型由图像编码器和文本编码器两部分组成。图 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

高分子科学前沿 · 东北大学殷澍教授AM：传感行为作为气体传感选择性新定义

昨天

高分子科学前沿 · Molecules期刊2022–2023年中国top高校高引文章精选

2 天前

高分子科学前沿 · 他，中科大校友，继4篇Nature、Science之后，今年连发2篇Nature大子刊！

4 天前

archrace 建筑竞赛 · 竞赛 | “遗迹地图集”摄影作品征集

3 月前

证券时报 · A50，突然拉升！离岸人民币跳涨100点

1 月前

电子发烧友网 · 涉案金额6.8亿! 信科移动起诉展讯公司

1 月前