文章预览
关注 「 AIWalker 」 并 星标 从此AI不迷路 作者丨科技猛兽 编辑丨极市平台 极市导读 应用与语言模型完全相同的 "next-token prediction" 的原始自回归模型也能够实现最先进的图像生成性能。 太长不看版 LlamaGen 是一系列将大语言模型中 "next token prediction" 范式应用于生成领域的图像生成模型。LlamaGen 坚定地回答了这个问题,即:原始的自回归模型,比如 Llama[1][2](它没有 2D 视觉信号的归纳偏置),在缩放适当的前提下究竟能不能达到 SOTA 的图像生成性能。 在 LlamaGen 中,作者重新检查了 image tokenizers 的设计空间,图像生成模型的缩放性能,以及训练数据的质量,探索得到的结论包括:(1) 一个下采样率为 16 的 image tokenizer,重建质量为 0.94 rFID,ImageNet benchmark 的 codebook 使用率为 97%;(2) 一系列参数量从 111M 到 3.1B 的 class-conditional 图像生成模型,在 Ima
………………………………