文章预览
图像生成模型是目前业内研究的焦点,而目前诸如Sora等前沿生成模型,其所基于的主体架构都是Diffusion Transformers(DiT)。 Diffusion Tran sformers(DiT)是论文 Scalable Diffusion Models with Transformers(ICCV 2023) 中提出的,是扩散模型和Transformer的结合, 也是Sora使用的底层生成模型架构,将Diffusion Transformers从图像生成扩展到了视频生成 。这篇文章给大家总结了目前主要的几个DiT模型结构,带大家梳理DiT系列模型的核心。 1 DiT 在之前的图像生成扩散模型中,底层的网络结构一般都是U-Net。而本文基于Vision Transformer(ViT)中的Transformer图像分类模型结构,替代扩散模型中的U-Net,得到DiT模型,实现了更优的生成效果。 在输入部分,基本采用了和ViT相同的方法。对输入的图像分成多个patch,并转换成一个token序列,每个token拼接上相应的position embedding。这个底层的emb
………………………………