主要观点总结
本文介绍了新加坡国立大学和清华大学的研究团队提出的'STAR: Skeleton-aware Text-based 4D Avatar Generation with in-network motion Retargeting'算法,该算法能够从文本描述生成高质量的4D Avatar,显著提升了虚拟人物外观和动作的真实性和自然性。文章简要介绍了STAR 算法的核心创新及其在文本到 Avatar 生成领域的贡献。
关键观点总结
关键观点1: 研究背景
基于扩散模型的文本到图像生成(T2I generation)领域近年来取得显著进展,4D角色的创建在电影和游戏行业中引起极大关注。然而,目前主流的基于文本的4D Avatar生成方法存在多面问题、域间隙和动画穿模等挑战。
关键观点2: STAR 算法介绍
为了解决上述挑战,文章提出了STAR算法。其核心在于在优化过程中考虑骨架(Skeleton)、几何(Geometry)以及姿势(Pose)的影响,利用运动重定向(motion retarget)技术获得更准确的骨架控制信号,用于SDS的优化。这一方法显著提升了4D Avatar的生成质量。
关键观点3: STAR 算法的主要流程
给定人物和动作的文本描述,训练4D Avatar的整体算法流程包括利用预训练的文本到动作模型初始化人体动作,通过骨架感知、几何感知和动作感知来更新几何和纹理,同步调整源动作以匹配个性化Avatar的骨架和几何特征。此外,还引入了运动重定向和混合SDS方法来提高生成质量和一致性。
关键观点4: 实验结果
实验结果表明,STAR能够生成具有多样体型特征的角色,并通过3D mesh表示在不同视角下展现更真实的动画效果。定量评估也验证了STAR相较于先前的方法能够生成更加真实的结果。
关键观点5: 结论
本文提出了STAR算法,能够从文本描述中生成高质量4D Avatar。通过逐步优化几何、纹理和动作,特别是在解决源模板与目标Avatar之间的骨架和几何差异方面,展示了在提升虚拟人物生成技术方面的潜力和优越性。
文章预览
©PaperWeekly 原创 · 作者 | Chai Zenghao 单位 | 新加坡国立大学博士生 研究方向 | 3D生成 背景 在计算机图形学和数字虚拟人领域,从简单的文本提示生成更真实、可交互的虚拟人物是是目前广受关注的研究课题。然而,先前的 3D Avatar 生成方法存在一些问题,如生成的人物在动作和细节上往往不够真实。 新加坡国立大学和清华大学的研究团队提出了“STAR: Skeleton-aware Text-based 4D Avatar Generation with in-network motion Retargeting”。该算法通过引入角色相关的骨骼感知技术,能够从文本描述生成高质量的 4D Avatar,显著提升了虚拟人物外观和动作的真实性和自然性。本文将简要介绍 STAR 算法的核心创新及其在文本到 Avatar 生成领域的贡献。 论文链接: https://arxiv.org/abs/2406.04629 项目主页: https://star-avatar.github.io/ 代码链接: https://github.com/czh-98/STAR 本文动机 近年
………………………………