中学生能看懂：快手「可灵」和「Sora」背后 DiT 技术

赛博禅心 · 公众号 · · 2024-06-09 18:48

文章预览

写在前面本文由「大聪明GPT v2.0」生成下为正文，文末附 prompt Diffusion 模型的运作，像是在玩一个“加噪声再还原”的游戏。想象一下，我们把一张清晰的图片比作一杯清水。Diffusion 模型一开始会慢慢往这杯清水里滴入墨汁，让水变得越来越浑浊，最终变成一杯完全看不清的墨水。这个过程就是“加噪声”。有趣的是，Diffusion 模型接下来要做的，就是想办法把这杯浑浊的墨水还原成最初的清水。怎么做呢？它会学习“加噪声”的逆过程，一步一步地去除噪声，就像把墨水从水中慢慢分离出来一样，最终恢复成清晰的图片。为了更好地学习噪声和图像之间的关系，DiT 模型巧妙地引入了 Transformer 架构。Transformer 最厉害的地方在于它拥有“注意力机制”，就像我们在阅读文章时，会特别关注一些关键词一样，注意力机制能让模型学会抓住数据中的关 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博