EmoTalk3D：高保真情感 3D Talking Head的任意视角合成

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-11-03 07:16

文章预览

24年8月来自南京大学、复旦和华为诺亚实验室的论文“EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head”。这是一种合成具有可控情绪 3D talking head 的方法，具有增强的唇部同步和渲染质量。尽管该领域取得了重大进展，但先前的方法仍然存在多视角一致性和缺乏情感表现力的问题。为了解决这些问题，收集包含标定的多视角视频、情感注释和每帧 3D 几何的 EmoTalk3D 数据集。通过在 EmoTalk3D 数据集上进行训练，提出一种“语音-几何-外观”映射框架，该框架首先根据音频特征预测忠实的 3D 几何序列，然后根据预测的几何形状合成由 4D 高斯表示的 3D talking head 外观。外观进一步分解为规范高斯和动态高斯，从多视角视频中学习，并二者融合以渲染任意视角的 talking head 动画。此外，模型能够控制生成的 talking head 情绪，并且可以在宽视角下进行 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博