文章预览
商汤研究院最新发布了一个先进的3D面部动画系统UniTalker,可以从不同的音频领域生成逼真的面部动作,包括各种语言的清晰和嘈杂的声音、文本到语音生成的音频,甚至伴有背景音乐的嘈杂歌曲。 UniTalker 可以输出多个注释。对于具有新注释的数据集,可以简单地将新的头插入 UniTalker 并使用现有数据集或仅使用新数据集进行训练,从而避免重新拓扑。 效果如下: 相关链接 代码链接:https://github.com/X-niper/UniTalker 论文链接:https://arxiv.org/pdf/2408.00762 项目地址:https://x-niper.github.io/projects/UniTalker/ 论文阅读 UniTalker:通过统一模型扩展音频驱动的 3D 面部动画 摘要 音频驱动的 3D 面部动画旨在将输入音频映射到逼真的面部运动。尽管取得了重大进展,但由于 3D 注释不一致而产生了限制,将以前的模型限制在特定注释上进行训练,从而限制了训练规模。
………………………………