分享最新一线AI大模型、云原生、智能算力架构技术
今天看啥  ›  专栏  ›  AI云原生智能算力架构

基于Transformer理解多模态大模型 2024

AI云原生智能算力架构  · 公众号  ·  · 2024-08-11 07:10

文章预览

1. 多模态大模型国内外发展现状 1.1 基于 Transformer Encoder 的多模态理解模型 随着基于 Transformer Encoder 的 BERT[59]的出现,基于大规 模数据的自监督预训练模型显示出卓越的性能,除了在自然语言处理领域得到广泛应用外,在多模态领域也逐渐被采用。 基于TransformerEncoder 的多模态理解模型主要采用 Transformer 的 Encoder 部分作为模型架构,学习去理解多模态数据的语义及其关联。当前研究方法可以分为单流和双流两类。单流类方法将视觉和文本模态一起输入到编码器,代表性工作包括 VL-BERT ,VideoBERT ,UNITER 等。 VL-BERT 提出一种图像+文本的多模态预训练模型,该模型将图像的文本描述和目标区域作为 BERT 的输入,通过随机掩码(mask)掉文本单词和图像区域来进一步增强预训练模型。VideoBERT 首次提出视频+文本的预训练模型,使用融合文本信息和视频序列作 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览