专栏名称: 慢慢学 AIGC
关注 AIGC,LLM,AI infra 等方向最新资讯,欢迎高质量技术类文章投稿,商务合作可联系 Mistake113
今天看啥  ›  专栏  ›  慢慢学 AIGC

图解 CLIP 计算过程

慢慢学 AIGC  · 公众号  ·  · 2024-06-15 06:59
    

文章预览

点击下方 卡片 ,关注“ 慢慢学AIGC ” 徒手计算 CLIP ✍️ 对比语言-图像预训练模型( Contrastive Language–Image Pre-training,简称 CLIP )是 OpenAI 的一项开创性工作,重新定义了计算机视觉和自然语言处理的交集。 它是我们今天看到的所有多模态基础模型的基础。CLIP 模型的 目标是学习一个文本和图像的共享嵌入空间。 CLIP 是如何计算的呢?下面我们给出每一步的手动计算过程。 步骤一 提供包含 3 对文本-图像的 mini-batch,对应图中的"big table", "mini chair" 和 "top hat"。 OpenAI 当年训练 其原始的 CLIP 模型 使用了 4 亿对文本-图像。 步骤二 使用 word2vec 查找词嵌入向量, 将原始 文本转换为 2 个  3 维 向量 。下图展示了分词后的文本 "big", "table" 转换为向量 [1 0 1]', [0 1 1]' 的过程。其他文本转换过程类似。 步骤三 将图像 分成两个块,并 展平每 个块,转换为   ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览