专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

融合 Mamba 与 Transformer | MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !

arXiv每日学术速递  · 公众号  ·  · 2024-10-31 12:58

文章预览

图像生成模型遇到了与可扩展性和二次复杂性相关的挑战,主要原因是依赖于基于Transformer的 Backbone 网络。 在本研究中,作者引入了一种新颖的混合模型MaskMamba,它结合了Mambo和Transformer架构,使用Masked Image Modeling进行非自回归图像合成。 作者仔细重新设计了双向Mamba架构,通过实现两个关键的修改: (1)用标准卷积替换因果卷积,以更好地捕捉全局上下文; (2)用 ConCat 而不是乘法,这显著提高了性能,同时加快了推理速度。此外,作者还探索了MaskMamba的各种混合方案,包括串行和分组并行排列。 此外,作者引入了一个在语境中的条件,使得作者的模型可以执行分类到图像和文本到图像生成任务。 MaskMamba 在生成质量上超过了基于Mamba和Transformer的模型。 值得注意的是,它实现了在2048x2048分辨率下推理速度的54.44%的显著提升。 1 Introduction 近年 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览