多模态大模型技术点总结

包包算法笔记 · 公众号 · · 2024-10-07 08:44

文章预览

作者：jewellery 链接：https://zhuanlan.zhihu.com/p/717586003 总结 BLIP2 论文地址： https:// arxiv.org/pdf/2301.1259 7 发布时间：2023.06.15 模型结构： Vision Encoder：ViT-L/14 VL Adapter：Q-Former LLM：OPT (decoder-based)，FlanT5（encoder-decoder-based） Overview of BLIP-2's framework 论文主要提出Q-Former（Lightweight Querying Transformer）用于连接模态之间的gap。BLIP-2整体架构包括三个模块：视觉编码器、视觉和LLM的Adapter(Q-Former)、LLM。其中Q-Former是BLIP-2模型训练过程中主要更新的参数，视觉Encoder和大语言模型LLM在训练过程中冻结参数。 BLIP-2的预训练包括两个阶段： Stage 1）Vision-and-Language Representation Learning. Q-Former与冻结的Image Encoder(ViT-L/14)连接，在和文本交互中学习图文相关性表示（3个预训练任务）。 Stage 2）Vision-to-Language Generative Learning. 第一个阶段训练得到的Q-Former的输出接入一个大语言模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

汇易咨询 · 今年10月我国小麦进口量再刷四年多新低，饲用量级明显下降

2 天前

汇易咨询 · 国内菜籽菜粕库存高温横盘，四季度到港预期有所上升

3 天前

汇易咨询 · 今年美国产区冬春气象关键词：弱拉尼娜、降水带北移与降雪量差异

3 天前

汇易咨询 · 港口库存量继续减少，近期我国鱼粉报价涨势显著

3 天前

DICE桌游社 · Golden Dice 2024 线上投票环节开启！联手千岛，一起选出你爱的游戏吧！

4 月前

丁香医生 · 一个能查出癌症的体检项目，40 岁以上的人都要做

1 月前