计图开源：基于扩散模型的语音驱动风格化人脸动画生成

图形学与几何计算 · 公众号 · · 2024-11-20 15:30

文章预览

清华大学和北京交通大学的研究者合作提出了DiffPoseTalk方法，该方法提出了一种新颖的条件扩散模型，用于生成与语音匹配的多样且高质量的具有自然头动的风格化人脸动画。该论文已被ACM Transactions on Graphics收录[1]。近日，北京交通大学 CLIA实验室温玉辉副教授等与清华大学刘永进教授、天津大学余旻婧副教授合作，开源了基于计图（Jittor）深度学习框架实现的DiffPoseTalk版本。Jittor版本取得了与PyTorch版本同等质量的生成结果，但是所需的扩散模型去噪生成过程时间较PyTorch版本更短，推理速度是PyTorch版本的1.69倍。 Part 1 问题和背景语音驱动的 3D 人脸动画生成在教育、客服、娱乐等领域有丰富的应用场景，近年来受到来自学术界和工业界的关注。这是一个具有高度挑战性的研究问题，因为其涉及语音和3D人脸动画之间的跨模态多对多映射关系。现 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博