文章预览
前言 最近一段时间恰好在推进手上的一个做视频生成相关的课 题,也是对视频扩散模型(Video Diffusion Models)这一领域有了颇多认识。其中,视频扩散模型的很多设计都还要从图像扩散模型的时代讲起。作为一个见证Stable Diffusion诞生,到入行可控图像生成领域,到产出自己第一篇diffusion model相关的工作,再到目前产出第二个diffusion相关的视频工作的在读博士生,某种程度上可以说是见证了video diffusion models发展的历程。 说到视频生成这件事,真正让这个话题走进大家的视野的,其实还是今年年初Sora的首次亮相。 Sora的亮相带火了两个东西——一个是Diffusion Transformer,另一个则是text-to-video generation这件事 。至今时隔Sora亮相已经过去了足足八个月之久,视频生成领域的卷度貌似没有我们想象中的那样夸张。 「夸张」这个标准我
………………………………