专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

多模态入门--CLIP

AINLP · 公众号 · · 2024-10-10 19:46

文章预览

放假了，小小水一篇多模态的经典之作，CLIP。论文：《Learning Transferable Visual Models From Natural Language Supervision》时间：2021年3月机构：OpenAI 又是Ilya参与的一个工作。 CLIP = Contrastive Language-Image Pre-training，顾名思义，这是一个基于对比学习的语言图像多模态学习方法。CLIP训练的目的其实主要还是获得通用的图像表征模型，因此在CLIP框架里，语言数据可以认为是作为监督信号存在的，类似图像分类任务中的类别信号，只是从一个one hot label扩展成了自然语言的形式。使用自然语言作为监督信号的好处是，自然语言信号更加灵活，可以支持扩展到zero-shot的推理，并且能够提供更加丰富的监督信息。数据其实在CLIP之前就有好些多模态训练的工作，但是效果没有这么好，原因主要是数据量不够大，另外就是对自然语言数据使用不够好，未能充分发挥自然语 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博