文章预览
关注公众号,发现CV技术之美 本文介绍由多伦多大学,北京交通大学,德克萨斯大学奥斯汀分校和剑桥大学团队最新提出的4D生成扩散模型,该方法可以在几分钟之内可以完成时空一致的4D内容生成。 Diffusion4D (Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models) 整理筛选了约81K个4D assets,利用8卡GPU共16线程,花费超过30天渲染得到了约四百万张图片,包括静态3D物体环拍、动态3D物体环拍以及动态3D物体前景视频。 该方法是首个利用大规模数据集,训练视频生成模型生成4D内容的框架,目前项目已经开源所有渲染的4D数据集以及渲染脚本。 项目地址:https://vita-group.github.io/Diffusion4D/ 论文地址:https://arxiv.org/abs/2405.16645 一、 研究背景 过去的方法采用了2D、3D预训练模型在4D(动态3D)内容生成上取得了一定的突破,但他们主要依赖于分数
………………………………