专栏名称: AIWalker
关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营,原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。
今天看啥  ›  专栏  ›  AIWalker

图像生成别止步于扩散模型,自回归模型也很好用!LlamaGen:实现414%推理加速!

AIWalker  · 公众号  ·  · 2024-08-11 22:00
    

文章预览

关注 「 AIWalker 」 并 星标 从此AI不迷路 作者丨科技猛兽     编辑丨极市平台 极市导读   应用与语言模型完全相同的 "next-token prediction" 的原始自回归模型也能够实现最先进的图像生成性能。   太长不看版 LlamaGen 是一系列将大语言模型中 "next token prediction" 范式应用于生成领域的图像生成模型。LlamaGen 坚定地回答了这个问题,即:原始的自回归模型,比如 Llama[1][2](它没有 2D 视觉信号的归纳偏置),在缩放适当的前提下究竟能不能达到 SOTA 的图像生成性能。 在 LlamaGen 中,作者重新检查了 image tokenizers 的设计空间,图像生成模型的缩放性能,以及训练数据的质量,探索得到的结论包括:(1) 一个下采样率为 16 的 image tokenizer,重建质量为 0.94 rFID,ImageNet benchmark 的 codebook 使用率为 97%;(2) 一系列参数量从 111M 到 3.1B 的 class-conditional 图像生成模型,在 Ima ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览