讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

EmoTalk3D:高保真情感 3D Talking Head的任意视角合成

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-11-03 07:16
    

文章预览

24年8月来自南京大学、复旦和华为诺亚实验室的论文“EmoTalk3D: High-Fidelity Free-View Synthesis of Emotional 3D Talking Head”。 这是一种合成具有可控情绪 3D talking head 的方法,具有增强的唇部同步和渲染质量。尽管该领域取得了重大进展,但先前的方法仍然存在多视角一致性和缺乏情感表现力的问题。为了解决这些问题,收集包含标定的多视角视频、情感注释和每帧 3D 几何的 EmoTalk3D 数据集。通过在 EmoTalk3D 数据集上进行训练,提出一种“语音-几何-外观”映射框架,该框架首先根据音频特征预测忠实的 3D 几何序列,然后根据预测的几何形状合成由 4D 高斯表示的 3D talking head 外观。外观进一步分解为规范高斯和动态高斯,从多视角视频中学习,并二者融合以渲染任意视角的 talking head 动画。此外,模型能够控制生成的 talking head 情绪,并且可以在宽视角下进行 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览