今天看啥  ›  专栏  ›  赛博禅心

中学生能看懂:快手「可灵」和「Sora」背后 DiT 技术

赛博禅心  · 公众号  ·  · 2024-06-09 18:48
    

文章预览

写在前面 本文由「大聪明GPT v2.0」生成 下为正文,文末附 prompt Diffusion 模型的运作,像是在玩一个“加噪声再还原”的游戏。想象一下,我们把一张清晰的图片比作一杯清水。Diffusion 模型一开始会慢慢往这杯清水里滴入墨汁,让水变得越来越浑浊,最终变成一杯完全看不清的墨水。这个过程就是“加噪声”。 有趣的是,Diffusion 模型接下来要做的,就是想办法把这杯浑浊的墨水还原成最初的清水。怎么做呢?它会学习“加噪声”的逆过程,一步一步地去除噪声,就像把墨水从水中慢慢分离出来一样,最终恢复成清晰的图片。 为了更好地学习噪声和图像之间的关系,DiT 模型巧妙地引入了 Transformer 架构。Transformer 最厉害的地方在于它拥有“注意力机制”,就像我们在阅读文章时,会特别关注一些关键词一样,注意力机制能让模型学会抓住数据中的关 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览