C3V：微软基于3D结构化和LLM指导的文本驱动视频生成新范式

ADFeed · 公众号 · · 2024-09-20 11:15

文章预览

Compositional 3D-aware Video Generation with LLM Director 介绍： https://www.microsoft.com/en-us/research/project/compositional-3d-aware-video-generation/ 论文： https://arxiv.org/abs/2409.00558 C3V （Compositional 3D-aware Video Generation）是微软研究人员提出的一种创新的视频生成范式，它通过将文本提示分解成独立的子概念，并为每个概念生成单独的3D表示，再利用大型语言模型（LLM）和2D扩散模型的先验知识进行组合。该方法的核心优势在于其对视频中个体概念的精确控制能力，如特定角色的动作和外观，以及视角的移动。C3V 的生成过程分为三个阶段：首先，使用LLM将文本提示拆分为描述场景、对象和动作的子提示；其次，通过多模态LLM提供对象在场景中的粗略规模和轨迹指导；最后，利用2D扩散先验对对象的规模、位置和旋转进行细化，以确保生成的视频帧符合自然图像分布。 C3V 的特点 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博