文章预览
点击下方 卡片 ,关注“ 慢慢学AIGC ” 徒手计算 CLIP ✍️ 对比语言-图像预训练模型( Contrastive Language–Image Pre-training,简称 CLIP )是 OpenAI 的一项开创性工作,重新定义了计算机视觉和自然语言处理的交集。 它是我们今天看到的所有多模态基础模型的基础。CLIP 模型的 目标是学习一个文本和图像的共享嵌入空间。 CLIP 是如何计算的呢?下面我们给出每一步的手动计算过程。 步骤一 提供包含 3 对文本-图像的 mini-batch,对应图中的"big table", "mini chair" 和 "top hat"。 OpenAI 当年训练 其原始的 CLIP 模型 使用了 4 亿对文本-图像。 步骤二 使用 word2vec 查找词嵌入向量, 将原始 文本转换为 2 个 3 维 向量 。下图展示了分词后的文本 "big", "table" 转换为向量 [1 0 1]', [0 1 1]' 的过程。其他文本转换过程类似。 步骤三 将图像 分成两个块,并 展平每 个块,转换为
………………………………