专栏名称: 古今医案云平台
面向中医临床医生、科研人员、高校师生及中医药从业人员提供医案知识服务。
今天看啥  ›  专栏  ›  古今医案云平台

CLIP模型:构建视觉与语言的通用表示

古今医案云平台  · 公众号  ·  · 2024-09-05 16:00
    

文章预览

1 算法简介 CLIP(Contrastive Language-Image Pre-Training)模型是一种多模态预训练神经网络,由OpenAI在2021年发布,是从自然语言监督中学习的一种有效且可扩展的方法。CLIP在预训练期间学习执行广泛的任务,包括OCR,地理定位,动作识别,并且在计算效率更高的同时优于公开可用的最佳ImageNet模型。该模型的核心思想是使用大量图像和文本的配对数据进行预训练,以学习图像和文本之间的对齐关系。该模型具有多模态学习的能力,能够同时理解图像和文本两种不同模态的信息,并在它们之间建立联系。CLIP模型在多个领域都展现出了强大的应用潜力,包括图像分类、图像检索、文本生成、多模态搜索等,尤其适用于零样本学习任务,即模型不需要看到新的图像或文本的训练示例就能进行预测。 2 算法原理 CLIP模型由图像编码器和文本编码器两部分组成。图 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览