主要观点总结
文章介绍了由字节商业化技术团队开发的自回归文生图新王者——Infinity模型。该模型基于VAR架构,超越了Diffusion Model,具有更高的图像生成质量和更快的推理速度。文章详细阐述了Infinity模型的关键技术,包括bitwise token自回归建模、无穷大词表扩展、模型缩放等。此外,文章还介绍了Infinity模型的优势和实验结果,并提供了开源地址和项目页面链接。
关键观点总结
关键观点1: Infinity模型是字节商业化技术团队开发的自回归文生图新王者,超越了Diffusion Model。
Infinity模型具有更高的图像生成质量和更快的推理速度,解决了自回归模型画质不高和缺乏高频细节的问题。
关键观点2: Infinity模型采用bitwise token自回归建模,提出了一个Bitwise Token的自回归框架。
这个框架通过细粒度的bitwise tokenizer建模图像空间,提高了模型的高频表示能力。
关键观点3: Infinity模型实现了词表扩展,将词表扩展到无穷大,增大了Image tokenizer的表示空间。
这大大提高了自回归文生图的上限,解决了离散化的Visual Tokenizer落后于连续的问题。
关键观点4: Infinity模型具有良好的scaling特性,通过扩大词表和模型大小,以及充分的训练,可以稳步提升效果。
实验表明,随着模型的增大和训练资源的增加,验证集损失稳步下降,验证集准确率稳定提升。
关键观点5: Infinity模型还具有速度优势,完全继承了VAR预测下一级分辨率的速度优势,相比扩散模型在推理速度上具有显著的优势。
2B模型生成1024x1024的图像用时仅为0.8s,相比其他同类模型有显著的速度提升。
文章预览
允中 发自 凹非寺 量子位 | 公众号 QbitAI 自回归文生图,迎来新王者—— 新开源模型Infinity,字节商业化技术团队出品,超越Diffusion Model。 值得一提的是,这其实是从前段时间斩获 NeurIPS最佳论文 VAR 衍生而来的 文生图版本 。 在预测下一级分辨率的基础上,Infinity用更加细粒度的bitwise tokenizer建模图像空间。同时他们将词表扩展到无穷大,增大了Image tokenizer的表示空间,大大提高了自回归文生图的上限。他们还将模型大小扩展到20B。 结果,不仅在图像生成质量上直接击败了Stabel Diffusion3,在推理速度上,它完全继承了VAR的速度优势,2B模型上比同尺寸SD3快了3倍,比Flux dev快14倍,8B模型上比同尺寸的SD3.5快了7倍。 目前模型和代码都已开源,也提供了体验网站。 来看看具体细节。 自回归文生图新王者 在过去自回归模型和扩散模型的对比中,自回归模
………………………………