专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
GiantPandaCV  ·  PyTorch 博客 CUTLASS ... ·  2 天前  
今天看啥  ›  专栏  ›  GiantPandaCV

[LLaVA系列]CLIP/LLaVA/LLaVA1.5/VILA笔记

GiantPandaCV  · 公众号  · 3D  · 2024-05-31 22:54
    

文章预览

作者丨DefTruth 来源丨https://zhuanlan.zhihu.com/p/683137074 编辑丨GiantPandaCV 0x00 前言 本文主要记录一下CLIP和LLaVA系列模型的核心点,便于自己后续复习查找。 0x01 CLIP 模型结构 paper:  https:// arxiv.org/pdf/2103.0002 0.pdf CLIP 模型结构 CLIP模型是一个双塔结构,包括一个文本编码器Text Encoder和一个图像编码器Image Encoder。训练数据集的形式为(image, text),对于每个正确匹配的image和text,text是对image的一句正确描述。CLIP模型需要对(image, text)的数据对进行预测,即(image, text)匹配的为1,不匹配的为0。 Text Encoder: 对于每个句子,将其编码成一个隐向量, 维度(1,512);N个句子,因此有 ,即[N, 512] Image Encoder: 对于每张img,将其编码成一个隐向量, 维度(1,512); N张图,因此有 - ,即[N, 512] 由于Text Encoder和Image Encoder最后都是输出[N,512]的Tensor,因此可以很方便地计算images和texts两两 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览