文章预览
通过视频生成学习世界的知识 学习大规模视频生成模型为通过互联网规模的视频数据学习视觉世界提供了一个关键途径。学习生成准确的视频需要模型对现实世界的概念有深刻理解,如运动、物理、物体交互和三维一致性。在本论文中,我将展示我的研究,旨在解决视频生成模型的基本架构和扩展中的核心瓶颈,以及这种视频模型在下游任务中的应用。 论文的第一部分,我将通过开发各种方法,解决视频生成模型中的计算瓶颈,学习良好压缩的时空层次表示。具体来说,我首先介绍 VideoGPT ,在该方法中,我们通过一个简单的3D CNN自编码器来学习一个压缩的潜在空间,该自编码器同时在空间和时间上对视频的像素表示进行下采样——这样,当在该潜在空间中学习视频生成模型时,可以大幅节省计算量。接下来,我研究了在 TECO 中实现更高效的视频
………………………………