专栏名称: ADFeed
🧠 AI DevFeed:AI 技术研习与产业观察。
目录
相关文章推荐
今天看啥  ›  专栏  ›  ADFeed

C3V:微软基于3D结构化和LLM指导的文本驱动视频生成新范式

ADFeed  · 公众号  ·  · 2024-09-20 11:15

文章预览

Compositional 3D-aware Video Generation with LLM Director 介绍: https://www.microsoft.com/en-us/research/project/compositional-3d-aware-video-generation/ 论文: https://arxiv.org/abs/2409.00558 C3V (Compositional 3D-aware Video Generation)是微软研究人员提出的一种创新的视频生成范式,它通过将文本提示分解成独立的子概念,并为每个概念生成单独的3D表示,再利用大型语言模型(LLM)和2D扩散模型的先验知识进行组合。 该方法的核心优势在于其对视频中个体概念的精确控制能力,如特定角色的动作和外观,以及视角的移动。C3V 的生成过程分为三个阶段:首先,使用LLM将文本提示拆分为描述场景、对象和动作的子提示;其次,通过多模态LLM提供对象在场景中的粗略规模和轨迹指导;最后,利用2D扩散先验对对象的规模、位置和旋转进行细化,以确保生成的视频帧符合自然图像分布。 C3V 的特点 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章