文章预览
JetFormer: An Autoregressive Generative Model of Raw Images and Text 论文: https://arxiv.org/abs/2411.19722v1 JetFormer 是一种创新的多模态自回归生成模型,由 Google DeepMind 开发。JetFormer 能够直接从原始数据中学习,无需依赖任何预先训练的组件,即可理解和生成文本和图像。 该模型通过结合归一化流模型和 Transformer,实现了软令牌图像表示的联合训练,使得在推理过程中,归一化流模型可以同时充当图像编码器和解码器。 JetFormer 在文本到图像的生成质量上与当前基于 VQVAE 和 VAE 的基线相当,同时展现出强大的图像理解能力,这在以往的模型中是难以实现的。 JetFormer 的关键特性在于其端到端的训练能力,这使得模型可以根据具体任务进行定制,不受外部和冻结组件的限制。此外,JetFormer 还能够计算原始图像的对数似然(NLL),这为比较不同建模类别的生成模型提供
………………………………