DiG：使用门控线性注意力机制的高效可扩展 Diffusion Transformer

arXiv每日学术速递 · 公众号 · · 2024-06-22 19:07

文章预览

作者丨科技猛兽编辑丨极市平台极市导读在相同的模型尺寸下，DiG-XL/2 比基于 Mamba 的扩散模型在 1024 的分辨率下快 4.2 倍，在 2048 的分辨率下比带有 CUDA 优化的 FlashAttention2 的 DiT 快 1.8 倍。这些结果都证明了其优越性能。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿本文目录 1 DiG：使用门控线性注意力机制的高效可扩展 Diffusion Transformer (来自华科，字节跳动) 1 DiM 论文解读 1.1 DiG：一种轻量级 DiT 架构 1.2 门控线性注意力 Transformer 1.3 扩散模型 1.4 Diffusion GLA 模型 1.5 DiG Block 架构 1.6 复杂度分析 1.7 实验结果太长不看版 Diffusion Transformer 模型面临的一个问题是计算复杂度与序列长度呈二次方关系，这不利于扩散模型的缩放。本文通过门控线性注意力机制 (Gated Linear Attention) 的长序列建模能力来应对这个问题，来提升扩散模型的适用性。本文 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

庞门正道 · 我天！它居然可以手持！！

昨天

庞门正道 · 啊！喵~喵~喵~喵~喵~喵~！

昨天

设计诗designer · Atelier Jiřího Lukáše丨自然质朴

昨天

Alibaba诚信通 · 欢迎来到1688全球生意托管[choice]

昨天

投基摸狗 · 调休，证券基金行业上班不上班的争议，其实是能否真正让投资者赚到钱

7 月前

专知 · 【博士论文】高效且有效的基础大型多模态模型学习

6 月前

包头新闻网 · 2024年12月29日 | 包头海报

3 月前

新民晚报 · 事发上海高速！三车追尾，两名乘客受伤送医

1 周前