主要观点总结
本文主要总结了近期全模态相关的工作,包括采用联合文本、图像、语音和视频进行训练的全模态模型。介绍了不同论文的关键技术细节,并讨论了全模态大模型的发展趋势和方向。同时,文章还鼓励读者通过投稿通道分享自己的原创内容和学术经验。
关键观点总结
关键观点1: 全模态相关工作的进展
随着全模态大模型的发展,图生文和文生图分开的方式仍是主流。全模态大模型发展迅速,目前存在多种方法,包括token离散化、AR+diffusion融合等。
关键观点2: 论文技术细节介绍
文章详细介绍了不同论文的关键技术细节,包括视觉编码器、LLM阶段训练、视觉解码器和解码阶段训练等。
关键观点3: 投稿通道介绍
文章鼓励读者通过投稿通道分享原创内容和学术经验,包括最新论文解读、学术热点剖析、科研心得和竞赛经验讲解等。稿件要求原创、清晰、未曾在公开渠道发表,并提供业内具有竞争力的稿酬。
文章预览
随着 Gemini 和 GPT-4o 等系列的发布,本文尝试总结一些最近全模态相关的工作。采用联合文本、图像、语音和视频进行训练,用一个端到端的模型可以支持文本、语音和图像三个模态,在支持图生文的同时也支持文生图。 Emu 论文标题: Emu: Generative Pretraining in Multimodality 论文地址: https://arxiv.org/abs/2307.05222 代码地址: https://github.com/baaivision/Emu a. Visual Encoder:先用 EVA-CLIP 进行图像编码,然后通过 Causal Transformer 进行 2D 信息建模,query 是自定义的向量,key 和 value 来自于视觉编码。 b. LLM 阶段训练:用 LLM 进行 next-token 学习,文本 Token 算交叉熵,图像 Token 算 L2 loss。 c. Visual Decoder:采用 Stable Diffusion 进行初始化,将 LLM 输出的 visual embeddings 作为 conditions 输出到 Stable Diffusion,将 Stable Diffusion 的 cross-attention 的 linear projections 维度换成适配 visual embeddings 的
………………………………