ECCV 2024 | UniTalker：商汤科技重磅发表的多样化音频驱动3D面部动画生成统一模型

人脸人体重建 · 公众号 · · 2024-08-24 09:00

文章预览

UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model 介绍： https://x-niper.github.io/projects/UniTalker/ 代码： https://github.com/X-niper/UniTalker 论文： https://arxiv.org/abs/2408.00762 UniTalker 是商汤科技研究院最新发布的一项创新研究成果，它是一个先进的3D面部动画系统，能够将各种类型的音频输入，包括不同语言的清晰和嘈杂声音、文本到语音合成的音频，甚至是伴随背景音乐的嘈杂歌曲，映射到逼真的3D面部动作上。该技术通过一个统一的模型架构实现，支持多头部设计，能够高效地利用具有不同注释的数据集进行训练。UniTalker 采用了多种训练策略，如主成分分析（PCA）、模型预热和关键身份嵌入，以增强训练稳定性并确保多头输出之间的一致性。此外，UniTalker的多语言和多声学类型的能力使其在面部动画生成方面表现出色，无论是在表情的丰富性还 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博