文章预览
Compositional 3D-aware Video Generation with LLM Director 介绍: https://www.microsoft.com/en-us/research/project/compositional-3d-aware-video-generation/ 论文: https://arxiv.org/abs/2409.00558 C3V (Compositional 3D-aware Video Generation)是微软研究人员提出的一种创新的视频生成范式,它通过将文本提示分解成独立的子概念,并为每个概念生成单独的3D表示,再利用大型语言模型(LLM)和2D扩散模型的先验知识进行组合。 该方法的核心优势在于其对视频中个体概念的精确控制能力,如特定角色的动作和外观,以及视角的移动。C3V 的生成过程分为三个阶段:首先,使用LLM将文本提示拆分为描述场景、对象和动作的子提示;其次,通过多模态LLM提供对象在场景中的粗略规模和轨迹指导;最后,利用2D扩散先验对对象的规模、位置和旋转进行细化,以确保生成的视频帧符合自然图像分布。 C3V 的特点
………………………………