图解 CLIP 计算过程

慢慢学 AIGC · 公众号 · · 2024-06-15 06:59

文章预览

点击下方卡片，关注“ 慢慢学AIGC ” 徒手计算 CLIP ✍️ 对比语言-图像预训练模型（ Contrastive Language–Image Pre-training，简称 CLIP ）是 OpenAI 的一项开创性工作，重新定义了计算机视觉和自然语言处理的交集。它是我们今天看到的所有多模态基础模型的基础。CLIP 模型的目标是学习一个文本和图像的共享嵌入空间。 CLIP 是如何计算的呢？下面我们给出每一步的手动计算过程。步骤一提供包含 3 对文本-图像的 mini-batch，对应图中的"big table", "mini chair" 和 "top hat"。 OpenAI 当年训练其原始的 CLIP 模型使用了 4 亿对文本-图像。步骤二使用 word2vec 查找词嵌入向量，将原始文本转换为 2 个 3 维向量。下图展示了分词后的文本 "big", "table" 转换为向量 [1 0 1]', [0 1 1]' 的过程。其他文本转换过程类似。步骤三将图像分成两个块，并展平每个块，转换为 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博