专栏名称: 周枫
关于教育、人工智能、创业和有道的思考。周枫是网易有道公司CEO,计算机科学博士。
今天看啥  ›  专栏  ›  周枫

Sora和Stable Diffusion 3背后的DiT技术

周枫  · 公众号  ·  · 2024-02-26 18:58
    

文章预览

十天时间,Sora的创新与潜在应用大家已经讨论得挺充分了,我读了不少。周末 把Sora和SD 3 相关文献 读了一下,所以我就补充一些技术沿革和产品思路和理解吧。首先是相关技术的一个简单脉络,然后是产品端的几点想法。 一、DiT及相关技术 Sora和SD 3都是基于Diffusion Transformer(DiT)这个新的图像生成技术,这是Sora作者之一William Peebles的成果,文章是Scalable Diffusion Models with Transformers,2022年12月上了arXiv,正式发表于ICCV(2023年10月)。 DiT这个技术被OpenAI和Stable.ai两大当红AI公司选中作为重要项目的基础,首先当然是性能足够好,下图是作者给出的ImageNet数据集生成效果指标,最重要的FID指标(越小越好)比之前的SOTA LDM一下从3.6降低到了2.27,可以说是质的飞跃。 另外我理解DiT也比较符合技术趋势, 这几年AI界一大思路就是技术的统一化 ,语言生成、 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览