文章预览
作者丨科技猛兽 编辑丨极市平台 极市导读 本文提出了一种新的基于 Mamba 的扩散模型 DiM,用于高效的高分辨率图像生成。 Mamba 本是用 于处理一维信号的模型,作者提出了几种有效的设计来使其能够对二维图像进行建模。 本文目录 1 DiM:高效高分辨率图像生成的 Diffusion Mamba (来自香港大学,华为诺亚方舟实验室) 1 DiM 论文解读 1.1 用 Mamba 架构进行高分辨率图像生成 1.2 状态空间模型 1.3 Diffusion Mamba 架构 1.4 训练和推理策略 1.5 实验设置 1.6 效率分析 1.7 实验结果 太长不看版 扩散模型在图像生成方面取得了巨大成功,Backbone 从 U-Net 演变到 Vision Transformer。然而, Transformer 的计算成本与 token 的数量成二次方,在处理高分辨率图像时面临重大挑战。本文提出 Diffusion Mamba (DiM),它结合了 Mamba 的效率,且具有扩散模型的表达能力,以实现高效的高分辨率图
………………………………