专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

多模态视觉&语言大模型架构演进汇总梳理

FightingCV  · 公众号  ·  · 2024-07-17 09:00

文章预览

关注“ FightingCV ”公众号 回复“ AI ”即可获得超100G人工智能的 教程 点击进入→   FightingCV交流群 这篇综述一张图总结了多模态LLM的典型架构: BLIP 【2022.01发布】[1] 统一视觉-语言理解和生成,使用captioner+filter高效利用互联网有噪数据 模型架构: •  Image/text encoder:  ITC loss对齐视觉和语言表征,基于ALBEF提出的momentum distillation •  Image-grounded text encoder:  ITM loss建模视觉-语言交互,区分positive/negative图文对,使用hard negative mining挖掘更高相似度的负例优化模型 •  Image-grounded text decoder:  LM loss实现基于图像的文本解码,将双向self-attention替换为causal self-attention BLIP的bootstrapping训练过程: BLIP-2 【2023.01发布】[2] 使用相对轻量的Q-Former连接视觉-语言模态,通过两阶段训练:第1阶段基于冻住的视觉编码器,第2阶段基于冻住的LLM 第1阶段:同样优化ITC/ ITM ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览