今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

多模态大模型技术点总结

吃果冻不吐果冻皮  · 公众号  ·  · 2024-09-25 12:01

文章预览

【点击】 加入大模型技术交流群 原文:https://zhuanlan.zhihu.com/p/717586003 总结 BLIP2 论文地址: https:// https://arxiv.org/pdf/2301.12597 发布时间:2023.06.15 模型结构: Vision Encoder:ViT-L/14 VL Adapter:Q-Former LLM:OPT (decoder-based),FlanT5(encoder-decoder-based) Overview of BLIP-2's framework 论文主要提出Q-Former(Lightweight Querying Transformer)用于连接模态之间的gap。BLIP-2整体架构包括三个模块:视觉编码器 、视觉和LLM的Adapter(Q-Former)、LLM。其中Q-Former是BLIP-2模型训练过程中主要更新的参数,视觉Encoder和大语言模型LLM在训练过程中冻结参数。 BLIP-2的预训练包括两个阶段: Stage 1)Vision-and-Language Representation Learning. Q-Former与冻结的Image Encoder(ViT-L/14)连接,在和文本交互中学习图文相关性表示(3个预训练任务)。 Stage 2)Vision-to-Language Generative Learning. 第一个阶段训练得到的Q-Former的输出 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览