Stable Video Diffusion 源码解读 (Diffusers 版)

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-06-24 00:05

文章预览

在上篇文章中，我们浏览了 Stable Video Diffusion (SVD) 的论文，并特别学习了没有在论文中提及的模型结构、噪声调度器这两个模块。在这篇文章中，让我们来看看 SVD 在 Diffusers 中的源码实现。我们会先学习 SVD 的模型结构，再学习 SVD 的采样流水线。在本文的多数章节中，我都会将 SVD 的结构与 Stable Diffusion (SD) 的做对比，帮助之前熟悉 SD 的读者快速理解 SVD 的性质。强烈建议读者在阅读本文前先熟悉 SD 及其在 Diffusers 中的实现。 Stable Diffusion Diffusers 实现源码解读简单采样实验目前开源的 SVD 仅有图生视频模型，即给定视频首帧，模型生成视频的后续内容。在首次开源时，SVD 有 1.0 和 1.0-xt 两个版本。二者模型结构配置相同，主要区别在于训练数据上。SVD 1.0 主要用于生成 14 帧 576x1024 的视频，而 1.0-xt 版本由 1.0 模型微调而来，主要用于生成 25 帧 576 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

四川省证券期货业协会 · 【熊猫投教】学习新“国九条”（四）

6 月前

经燕化工平台 · 阀门内漏的判断标准是什么？操作过程中有哪些注意事项？

5 月前

36氪 · 奥运落幕，喜茶、霸王茶姬的欧洲出海才正式开始｜焦点分析

5 月前

DigiKey得捷 · 聊聊低通滤波器这个迷人的研究点

5 月前

PaperAgent · 微软等EfficientRAG：迭代分解Query提升多跳问答效果！

5 月前