文章预览
↑ 点击 蓝字 关注极市平台 作者丨科技猛兽 编辑丨极市平台 极市导读 在相同的模型尺寸下,DiG-XL/2 比基于 Mamba 的扩散模型在 1024 的分辨率下快 4.2 倍,在 2048 的分辨率下比带有 CUDA 优化的 FlashAttention2 的 DiT 快 1.8 倍。这些结果都证明了其优越性能。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 本文目录 1 DiG:使用门控线性注意力机制的高效可扩展 Diffusion Transformer (来自华科,字节跳动) 1 DiM 论文解读 1.1 DiG:一种轻量级 DiT 架构 1.2 门控线性注意力 Transformer 1.3 扩散模型 1.4 Diffusion GLA 模型 1.5 DiG Block 架构 1.6 复杂度分析 1.7 实验结果 太长不看版 Diffusion Transformer 模型面临的一个问题是计算复杂度与序列长度呈二次方关系,这不利于扩散模型的缩放。本文通过门控线性注意力机制 (Gated Linear Attention) 的长序列建模能力来应对这个问题,来
………………………………