专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

PaperWeekly · 公众号 · 科研 · 2024-12-19 20:38

主要观点总结

本文主要总结了近期全模态相关的工作，包括采用联合文本、图像、语音和视频进行训练的全模态模型。介绍了不同论文的关键技术细节，并讨论了全模态大模型的发展趋势和方向。同时，文章还鼓励读者通过投稿通道分享自己的原创内容和学术经验。

关键观点总结

关键观点1: 全模态相关工作的进展

随着全模态大模型的发展，图生文和文生图分开的方式仍是主流。全模态大模型发展迅速，目前存在多种方法，包括token离散化、AR+diffusion融合等。

关键观点2: 论文技术细节介绍

文章详细介绍了不同论文的关键技术细节，包括视觉编码器、LLM阶段训练、视觉解码器和解码阶段训练等。

关键观点3: 投稿通道介绍

文章鼓励读者通过投稿通道分享原创内容和学术经验，包括最新论文解读、学术热点剖析、科研心得和竞赛经验讲解等。稿件要求原创、清晰、未曾在公开渠道发表，并提供业内具有竞争力的稿酬。

文章预览

随着 Gemini 和 GPT-4o 等系列的发布，本文尝试总结一些最近全模态相关的工作。采用联合文本、图像、语音和视频进行训练，用一个端到端的模型可以支持文本、语音和图像三个模态，在支持图生文的同时也支持文生图。 Emu 论文标题： Emu: Generative Pretraining in Multimodality 论文地址： https://arxiv.org/abs/2307.05222 代码地址： https://github.com/baaivision/Emu a. Visual Encoder：先用 EVA-CLIP 进行图像编码，然后通过 Causal Transformer 进行 2D 信息建模，query 是自定义的向量，key 和 value 来自于视觉编码。 b. LLM 阶段训练：用 LLM 进行 next-token 学习，文本 Token 算交叉熵，图像 Token 算 L2 loss。 c. Visual Decoder：采用 Stable Diffusion 进行初始化，将 LLM 输出的 visual embeddings 作为 conditions 输出到 Stable Diffusion，将 Stable Diffusion 的 cross-attention 的 linear projections 维度换成适配 visual embeddings 的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博