文章预览
简单来讲,FIFO-Diffusion先通过一些模型如VideoCraft2、zeroscope、Opem-Sora Plan等与FIFO-Diffusion的组合生成短视频,然后取结尾的帧(也可以取多帧),再用这一帧的图片生成另一段短视频,然后拼接起来。FIFO-Diffusion对如何取帧、生成新视频的时候引用往前的多少帧,以及如何去噪加噪做了算法优化。 从演示的视频来看在一些场景下效果已经相当可以了,复杂画面的闪烁会有点严重。 相关链接 论文:arxiv.org/abs/2405.11473 项目:jjihwan.github.io/projects/FIFO-Diffusion 代码:github.com/jjihwan/FIFO-Diffusion_public 论文阅读 FIFO-Diffusion:无需训练即可从文本生成无限视频 摘要 我们提出了一种基于预训练扩散模型的新颖推理技术,用于文本条件视频生成。我们的方法称为 FIFO-Diffusion,从概念上讲,无需训练即可生成无限长的视频。这是通过迭代执行对角去噪来实现的,该去噪同
………………………………