文章预览
作者丨DefTruth 来源丨https://zhuanlan.zhihu.com/p/683137074 编辑丨GiantPandaCV 0x00 前言 本文主要记录一下CLIP和LLaVA系列模型的核心点,便于自己后续复习查找。 0x01 CLIP 模型结构 paper: https:// arxiv.org/pdf/2103.0002 0.pdf CLIP 模型结构 CLIP模型是一个双塔结构,包括一个文本编码器Text Encoder和一个图像编码器Image Encoder。训练数据集的形式为(image, text),对于每个正确匹配的image和text,text是对image的一句正确描述。CLIP模型需要对(image, text)的数据对进行预测,即(image, text)匹配的为1,不匹配的为0。 Text Encoder: 对于每个句子,将其编码成一个隐向量, 维度(1,512);N个句子,因此有 ,即[N, 512] Image Encoder: 对于每张img,将其编码成一个隐向量, 维度(1,512); N张图,因此有 - ,即[N, 512] 由于Text Encoder和Image Encoder最后都是输出[N,512]的Tensor,因此可以很方便地计算images和texts两两
………………………………