文章预览
关注“ FightingCV ”公众号 回复“ AI ”即可获得超100G人工智能的 教程 点击进入→ FightingCV交流群 这篇综述一张图总结了多模态LLM的典型架构: BLIP 【2022.01发布】[1] 统一视觉-语言理解和生成,使用captioner+filter高效利用互联网有噪数据 模型架构: • Image/text encoder: ITC loss对齐视觉和语言表征,基于ALBEF提出的momentum distillation • Image-grounded text encoder: ITM loss建模视觉-语言交互,区分positive/negative图文对,使用hard negative mining挖掘更高相似度的负例优化模型 • Image-grounded text decoder: LM loss实现基于图像的文本解码,将双向self-attention替换为causal self-attention BLIP的bootstrapping训练过程: BLIP-2 【2023.01发布】[2] 使用相对轻量的Q-Former连接视觉-语言模态,通过两阶段训练:第1阶段基于冻住的视觉编码器,第2阶段基于冻住的LLM 第1阶段:同样优化ITC/ ITM
………………………………