讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

STAG4D:时空锚定的生成式 4D 高斯

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-11-03 07:16
    

文章预览

24年3月来自南京大学、中科院自动化所和复旦大学的论文“STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians”。 预训练扩散模型和 3D 生成的最新进展激发了人们对 4D 内容创作的兴趣。然而,实现具有时空一致性的高保真 4D 生成仍然是一个挑战。STAG4D,将预训练的扩散模型与动态 3D 高斯扩散相结合,实现高保真 4D 生成。从 3D 生成技术中汲取灵感,用多视图扩散模型来初始化锚定在输入视频帧上的多视图图像,其中视频可以是真实世界捕获的,也可以是由视频扩散模型生成的。为了确保多视图序列初始化的时间一致性,引入一种简单但有效的融合策略,利用第一帧作为自注意计算中的时间锚点。对于几乎一致的多视图序列,应用分数蒸馏采样(score distillation sampling,SDS)来优化 4D 高斯点云。4D 高斯扩散是专门为生成任务而设计的,其中提出一种自适 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览