专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
今天看啥  ›  专栏  ›  PaperWeekly

GPT-4o掀起全模态热潮!一文梳理全模态大模型最新研究进展

PaperWeekly  · 公众号  · 科研  · 2024-12-19 20:38
    

主要观点总结

本文主要总结了近期全模态相关的工作,包括采用联合文本、图像、语音和视频进行训练的全模态模型。介绍了不同论文的关键技术细节,并讨论了全模态大模型的发展趋势和方向。同时,文章还鼓励读者通过投稿通道分享自己的原创内容和学术经验。

关键观点总结

关键观点1: 全模态相关工作的进展

随着全模态大模型的发展,图生文和文生图分开的方式仍是主流。全模态大模型发展迅速,目前存在多种方法,包括token离散化、AR+diffusion融合等。

关键观点2: 论文技术细节介绍

文章详细介绍了不同论文的关键技术细节,包括视觉编码器、LLM阶段训练、视觉解码器和解码阶段训练等。

关键观点3: 投稿通道介绍

文章鼓励读者通过投稿通道分享原创内容和学术经验,包括最新论文解读、学术热点剖析、科研心得和竞赛经验讲解等。稿件要求原创、清晰、未曾在公开渠道发表,并提供业内具有竞争力的稿酬。


文章预览

随着 Gemini 和 GPT-4o 等系列的发布,本文尝试总结一些最近全模态相关的工作。采用联合文本、图像、语音和视频进行训练,用一个端到端的模型可以支持文本、语音和图像三个模态,在支持图生文的同时也支持文生图。 Emu 论文标题: Emu: Generative Pretraining in Multimodality 论文地址: https://arxiv.org/abs/2307.05222 代码地址: https://github.com/baaivision/Emu a. Visual Encoder:先用 EVA-CLIP 进行图像编码,然后通过 Causal Transformer 进行 2D 信息建模,query 是自定义的向量,key 和 value 来自于视觉编码。 b. LLM 阶段训练:用 LLM 进行 next-token 学习,文本 Token 算交叉熵,图像 Token 算 L2 loss。 c. Visual Decoder:采用 Stable Diffusion 进行初始化,将 LLM 输出的 visual embeddings 作为 conditions 输出到 Stable Diffusion,将 Stable Diffusion 的 cross-attention 的 linear projections 维度换成适配 visual embeddings 的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览