论文题目: STIV: Scalable Text and Image Conditioned Video Generation 论文链接: https://arxiv.org/abs/2412.07730 引言 近年来,视频生成领域取得了显著的进展,特别是在基于多种条件的生成技术方面。然而,目前的研究仍面临许多挑战,包括如何更有效地整合模型架构、训练策略和数据整理技巧来提升视频生成的质量。尤其是,针对文本到视频(T2V)和图像-文本到视频(TI2V)任务的单一模型尚未得到充分开发。 在此背景下,研究者提出了一种新的框架——STIV(可扩展的文本与图像条件视频生成),以期为视频生成的研究提供一种系统的方法。STIV框架的目标是通过整合图像条件和文本条件,构建一个既可以完成T2V任务,又能处理TI2V任务的统一模型,从而为视频生成的多样化和精确性提供支持。通过对不同架构和策略的系统性分析,STIV框架旨在提高生成视频的质
………………………………