文章预览
图像生成模型遇到了与可扩展性和二次复杂性相关的挑战,主要原因是依赖于基于Transformer的 Backbone 网络。 在本研究中,作者引入了一种新颖的混合模型MaskMamba,它结合了Mambo和Transformer架构,使用Masked Image Modeling进行非自回归图像合成。 作者仔细重新设计了双向Mamba架构,通过实现两个关键的修改: (1)用标准卷积替换因果卷积,以更好地捕捉全局上下文; (2)用 ConCat 而不是乘法,这显著提高了性能,同时加快了推理速度。此外,作者还探索了MaskMamba的各种混合方案,包括串行和分组并行排列。 此外,作者引入了一个在语境中的条件,使得作者的模型可以执行分类到图像和文本到图像生成任务。 MaskMamba 在生成质量上超过了基于Mamba和Transformer的模型。 值得注意的是,它实现了在2048x2048分辨率下推理速度的54.44%的显著提升。 1 Introduction 近年
………………………………