多模态大模型技术点总结

吃果冻不吐果冻皮 · 公众号 · · 2024-09-25 12:01

文章预览

【点击】加入大模型技术交流群原文：https://zhuanlan.zhihu.com/p/717586003 总结 BLIP2 论文地址： https:// https://arxiv.org/pdf/2301.12597 发布时间：2023.06.15 模型结构： Vision Encoder：ViT-L/14 VL Adapter：Q-Former LLM：OPT (decoder-based)，FlanT5（encoder-decoder-based） Overview of BLIP-2's framework 论文主要提出Q-Former（Lightweight Querying Transformer）用于连接模态之间的gap。BLIP-2整体架构包括三个模块：视觉编码器、视觉和LLM的Adapter(Q-Former)、LLM。其中Q-Former是BLIP-2模型训练过程中主要更新的参数，视觉Encoder和大语言模型LLM在训练过程中冻结参数。 BLIP-2的预训练包括两个阶段： Stage 1）Vision-and-Language Representation Learning. Q-Former与冻结的Image Encoder(ViT-L/14)连接，在和文本交互中学习图文相关性表示（3个预训练任务）。 Stage 2）Vision-to-Language Generative Learning. 第一个阶段训练得到的Q-Former的输出 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

家在河西 · 36个景点！湖心岛、丛林穿越、小火车、度假酒店......谷山竟然这样开发！

19 小时前

家在河西 · 36个景点！湖心岛、丛林穿越、小火车、度假酒店......谷山竟然这样开发！

19 小时前

旅行雷达 · 速领500元大额券！国内唯一，南航这条洲际航线即将开航，美酒，考拉，蓝花楹，绝美海岸线....大美南澳超出你的想象！

3 天前

广州本地宝 · 官宣！广州又一大型主题园来了！

3 天前

精明常旅客 · 美团酒店王牌奇妙Yeah神游节爆款促销：秋冬出游正当时！

3 天前

香港365天 · 竟然！这些隐秘角落，藏着港校独家纪念品周边？

6 天前

渐近投研 · 【今晚直播】渐近投研会员策略会：勇敢者的乐园

1 月前

有连云 · ETF市场崛起：公募基金行业的新篇章，被动投资时代的到来？

2 天前