专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

苹果发布视频生成大模型STIV,实现可扩展的文本与图像条件视频生成

PaperWeekly  · 公众号  · 科研  · 2024-12-12 23:48
    

文章预览

论文题目: STIV: Scalable Text and Image Conditioned Video Generation 论文链接: https://arxiv.org/abs/2412.07730 引言 近年来,视频生成领域取得了显著的进展,特别是在基于多种条件的生成技术方面。然而,目前的研究仍面临许多挑战,包括如何更有效地整合模型架构、训练策略和数据整理技巧来提升视频生成的质量。尤其是,针对文本到视频(T2V)和图像-文本到视频(TI2V)任务的单一模型尚未得到充分开发。 在此背景下,研究者提出了一种新的框架——STIV(可扩展的文本与图像条件视频生成),以期为视频生成的研究提供一种系统的方法。STIV框架的目标是通过整合图像条件和文本条件,构建一个既可以完成T2V任务,又能处理TI2V任务的统一模型,从而为视频生成的多样化和精确性提供支持。通过对不同架构和策略的系统性分析,STIV框架旨在提高生成视频的质 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览