文章预览
这篇主要包括BLIP系列、LLaVA系列和Flamingo,大致上按时间顺序排列。 1.BLIP 论文:《BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation》 时间:2022年1月 机构:Salesforce 在这个时间点,大多数多模态模型只在理解任务或者生成任务中的一个能做得比较好。BLIP的目的是训练一个同时具备理解和生成能力的模型,提出了一个unified VLP(Vision-Language Pre-Training)framework。BLIP主要的工作在于模型架构的设计,以及多模态数据集的优化。 1.1.MED模型 BLIP提出了一个MED模型,MED = Multimodal mixture of Encoder-Decoder。MED模型的设计如下: 可以看到MED包含好几个模块,这是一个multi-task模型。左边两个模块分别是image encoder和text encoder,和CLIP中使用的类似。这里使用的image encoder是在ImageNet预训练好的ViT,而text encoder是预训练好的Bert-base模型。右边
………………………………