文章预览
24年8月来自南京大学、复旦和华为诺亚实验室的论文“EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head”。 这是一种合成具有可控情绪 3D talking head 的方法,具有增强的唇部同步和渲染质量。尽管该领域取得了重大进展,但先前的方法仍然存在多视角一致性和缺乏情感表现力的问题。为了解决这些问题,收集包含标定的多视角视频、情感注释和每帧 3D 几何的 EmoTalk3D 数据集。通过在 EmoTalk3D 数据集上进行训练,提出一种“语音-几何-外观”映射框架,该框架首先根据音频特征预测忠实的 3D 几何序列,然后根据预测的几何形状合成由 4D 高斯表示的 3D talking head 外观。外观进一步分解为规范高斯和动态高斯,从多视角视频中学习,并二者融合以渲染任意视角的 talking head 动画。此外,模型能够控制生成的 talking head 情绪,并且可以在宽视角下进行
………………………………