专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

CVPR 2024 | 噪声先验的时域残差学习技术使图生视频更生动

将门创投  · 公众号  · 科技创业  · 2024-06-25 08:20

文章预览

近年来,扩散模型在文本引导的视频生成技术中表现出了显著的优势,然而将这一技术用于图像引导的视频生成领域仍然面临着很大挑战。目前,许多基于扩散模型的图生视频技术,通常将给定的静态图像作为第一帧,采用二维的变分自编码器(2D Variational Auto-Encoder)将第一帧编码为图像潜在编码;然后将该图像潜在编码与加噪的视频潜在编码(即高斯噪声序列)进行拼接,并利用可学习的三维网络(3D-UNet)预测去噪时每一帧的噪声向量;最后,利用预测得到的噪声向量对视频潜在编码进行去噪,得到生成的视频。 然而,现有的这些方法针对每一帧的噪声预测方式是独立的, 忽视了视频帧序列中的固有相关性 ,从而无法有效的实现视频与帧之间的连续性建模, 容易形成视频内容的跳变 。 基于这样的问题,我们提出了一种 基于图像噪声先验的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览