专栏名称: ADFeed
🧠 AI DevFeed:AI 技术研习与产业观察。
今天看啥  ›  专栏  ›  ADFeed

JetFormer:来自 Google DeepMind 的端到端多模态自回归生成模型

ADFeed  · 公众号  ·  · 2024-12-27 11:15
    

文章预览

JetFormer: An Autoregressive Generative Model of Raw Images and Text 论文: https://arxiv.org/abs/2411.19722v1 JetFormer  是一种创新的多模态自回归生成模型,由 Google DeepMind 开发。JetFormer 能够直接从原始数据中学习,无需依赖任何预先训练的组件,即可理解和生成文本和图像。 该模型通过结合归一化流模型和 Transformer,实现了软令牌图像表示的联合训练,使得在推理过程中,归一化流模型可以同时充当图像编码器和解码器。 JetFormer 在文本到图像的生成质量上与当前基于 VQVAE 和 VAE 的基线相当,同时展现出强大的图像理解能力,这在以往的模型中是难以实现的。 JetFormer 的关键特性在于其端到端的训练能力,这使得模型可以根据具体任务进行定制,不受外部和冻结组件的限制。此外,JetFormer 还能够计算原始图像的对数似然(NLL),这为比较不同建模类别的生成模型提供 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览