专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

多模态入门(二)--Flamingo,LLaVA系列和BLIP系列

AINLP · 公众号 · · 2024-11-30 20:38

文章预览

这篇主要包括BLIP系列、LLaVA系列和Flamingo，大致上按时间顺序排列。 1.BLIP 论文：《BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation》时间：2022年1月机构：Salesforce 在这个时间点，大多数多模态模型只在理解任务或者生成任务中的一个能做得比较好。BLIP的目的是训练一个同时具备理解和生成能力的模型，提出了一个unified VLP（Vision-Language Pre-Training）framework。BLIP主要的工作在于模型架构的设计，以及多模态数据集的优化。 1.1.MED模型 BLIP提出了一个MED模型，MED = Multimodal mixture of Encoder-Decoder。MED模型的设计如下：可以看到MED包含好几个模块，这是一个multi-task模型。左边两个模块分别是image encoder和text encoder，和CLIP中使用的类似。这里使用的image encoder是在ImageNet预训练好的ViT，而text encoder是预训练好的Bert-base模型。右边 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博