基于Transformer理解多模态大模型 2024

AI云原生智能算力架构 · 公众号 · · 2024-08-11 07:10

文章预览

1. 多模态大模型国内外发展现状 1.1 基于 Transformer Encoder 的多模态理解模型随着基于 Transformer Encoder 的 BERT[59]的出现，基于大规模数据的自监督预训练模型显示出卓越的性能，除了在自然语言处理领域得到广泛应用外，在多模态领域也逐渐被采用。基于TransformerEncoder 的多模态理解模型主要采用 Transformer 的 Encoder 部分作为模型架构，学习去理解多模态数据的语义及其关联。当前研究方法可以分为单流和双流两类。单流类方法将视觉和文本模态一起输入到编码器，代表性工作包括 VL-BERT ，VideoBERT ，UNITER 等。 VL-BERT 提出一种图像+文本的多模态预训练模型，该模型将图像的文本描述和目标区域作为 BERT 的输入，通过随机掩码(mask)掉文本单词和图像区域来进一步增强预训练模型。VideoBERT 首次提出视频+文本的预训练模型，使用融合文本信息和视频序列作 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博