文章预览
打造一个有温度、有趣味、专业的全栈式AI 交流社区, 用心写好每一篇文章! “ 在庞大的视频文本数据集上训练的视频扩散模型在生成高质量视频方面表现出了令人印象深刻的能力。受到Sora的启发,多项研究专注于训练这些模型,使用广泛的长视频文本数据集来创建更长的视频。然而,这些方法需要大量的计算资源和数据标注成本。一种更实用的方法涉及调整预训练的短视频模型,从而生成一致的较长视频序列,且无需重新训练。 本文研究了一种简单且无需训练的方法来扩展现有的短视频扩散模型(例如,在16帧视频上预先训练),从而生成一致的长视频(例如,128帧)。FreeLong将封装整个视频序列的全局视频特征的低频分量与专注于较短帧子序列的局部视频特征的高频分量混合在一起。这种方法在保持全局一致性的同时,结合了来自本地视频
………………………………