专栏名称: AIWalker

关注计算机视觉、图像处理、深度学习等领域的干货分享与前沿paper解读。AIWalker由具有多年算法研究与产品化落地经验的Happy运营，原创为主、同时会转载优秀解读文章。欢迎志同道合的小伙伴们加入一同学习进步。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

别只盯着DiT，国产模型也在暗自发力！U-ViT：ViT 架构实现 Diffusion 的开山之作！

AIWalker · 公众号 · · 2024-09-03 22:46

文章预览

作者丨科技猛兽。编辑丨极市平台极市导读本文的提出比 DiT 还要早一点，而且本文是用 ViT 架构实现 Diffusion 模型的开山之作，使用 ViT 来替换 Diffusion 模型中基于卷积的 U-Net 架构，同时维持模型宏观的 U 形架构不变。太长不看版 OpenAI Sora [1] 酷炫的效果及其与 Transformer 架构的关联使得领域开始关注基于 Transformer 的架构的扩散模型 Diffusion Transformer (DiT) [2] 。DiT 的特点是使用 vanilla 的 Transformer 架构，即相同的 Transformer Block 从头到尾，顺序排列，没有大 Shortcut 连接，极其简单的宏观架构。本文的提出比 DiT 还要早一点，而且本文是用 ViT 架构实现 Diffusion 模型的开山之作，使用 ViT 来替换 Diffusion 模型中基于卷积的 U-Net 架构，同时维持模型宏观的 U 形架构不变。本文的模型因此命名 U-ViT，其特点是将 Diffusion 模型中的一些必要的信息，比如 time ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博