文章预览
原文: https://zhuanlan.zhihu.com/p/717586003 总结 BLIP2 论文地址: https:// https://arxiv.org/pdf/2301.12597 发布时间:2023.06.15 模型结构: Vision Encoder:ViT-L/14 VL Adapter:Q-Former LLM:OPT (decoder-based),FlanT5(encoder-decoder-based) Overview of BLIP-2's framework 论文主要提出Q-Former(Lightweight Querying Transformer)用于连接模态之间的gap。BLIP-2整体架构包括三个模块:视觉编码器 、视觉和LLM的Adapter(Q-Former)、LLM。其中Q-Former是BLIP-2模型训练过程中主要更新的参数,视觉Encoder和大语言模型LLM在训练过程中冻结参数。 BLIP-2的预训练包括两个阶段: Stage 1)Vision-and-Language Representation Learning. Q-Former与冻结的Image Encoder(ViT-L/14)连接,在和文本交互中学习图文相关性表示(3个预训练任务)。 Stage 2)Vision-to-Language Generative Learning. 第一个阶段训练得到的Q-Former的输出接入一个大语言模型,学习视觉
………………………………