文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Video Generation|Text-to-Video, Real-Time xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations 2024-08-22|Salesforce AI Research|ECCV 2024 | ⭐️ 🟡 http://arxiv.org/abs/2408.12590v1 https://github.com/SalesforceAIResearch/xgen-videosyn 概述 本文介绍了xGen-VideoSyn-1,一个 高保真文本到视频生成模型 ,能够根据文本描述创建逼真的视频场景。研究的基础是近年来在视频生成领域取得的进展,特别是OpenAI的Sora模型。 xGen-VideoSyn-1采用了潜在扩散模型架构,并引入了一种视频变分自编码器(VidVAE) ,能够在空间和时间上压缩视频数据,从而显著减少视觉标记的长度及生成长序列视频所需的计算成本。 为了进一步提高效率,研究者提出了一种"划分与合并"的策略,保持视频段落间的时间一致性 。同
………………………………