这里是AI领域学习交流的平台!分享人工智能、机器学习、深度学习、计算机视觉、自然语言处理、算法原理、科技前沿、行业动态等,为您提供最有价值的知识和资讯。
目录
相关文章推荐
ZaomeDesign  ·  新作 | ... ·  2 天前  
Duncan艺术菌  ·  Shawn ... ·  3 天前  
Duncan艺术菌  ·  Shawn ... ·  3 天前  
今天看啥  ›  专栏  ›  人工智能与算法学习

图像生成模型王牌——Diffusion Transformers系列工作梳理

人工智能与算法学习  · 公众号  ·  · 2024-06-17 11:22
    

文章预览

图像生成模型是目前业内研究的焦点,而目前诸如Sora等前沿生成模型,其所基于的主体架构都是Diffusion Transformers(DiT)。 Diffusion Tran sformers(DiT)是论文 Scalable Diffusion Models with Transformers(ICCV 2023) 中提出的,是扩散模型和Transformer的结合, 也是Sora使用的底层生成模型架构,将Diffusion Transformers从图像生成扩展到了视频生成 。这篇文章给大家总结了目前主要的几个DiT模型结构,带大家梳理DiT系列模型的核心。 1 DiT 在之前的图像生成扩散模型中,底层的网络结构一般都是U-Net。而本文基于Vision Transformer(ViT)中的Transformer图像分类模型结构,替代扩散模型中的U-Net,得到DiT模型,实现了更优的生成效果。 在输入部分,基本采用了和ViT相同的方法。对输入的图像分成多个patch,并转换成一个token序列,每个token拼接上相应的position embedding。这个底层的emb ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览