文章预览
1. 多模态大模型国内外发展现状 1.1 基于 Transformer Encoder 的多模态理解模型 随着基于 Transformer Encoder 的 BERT[59]的出现,基于大规 模数据的自监督预训练模型显示出卓越的性能,除了在自然语言处理领域得到广泛应用外,在多模态领域也逐渐被采用。 基于TransformerEncoder 的多模态理解模型主要采用 Transformer 的 Encoder 部分作为模型架构,学习去理解多模态数据的语义及其关联。当前研究方法可以分为单流和双流两类。单流类方法将视觉和文本模态一起输入到编码器,代表性工作包括 VL-BERT ,VideoBERT ,UNITER 等。 VL-BERT 提出一种图像+文本的多模态预训练模型,该模型将图像的文本描述和目标区域作为 BERT 的输入,通过随机掩码(mask)掉文本单词和图像区域来进一步增强预训练模型。VideoBERT 首次提出视频+文本的预训练模型,使用融合文本信息和视频序列作
………………………………