文章预览
腾讯提出了一种新颖的框架-AniPortrait,用于生成由音频和参考肖像图像驱动的高质量动画。通俗讲,就是给张照片生成说话的视频。类似阿里的EMO,大家先可以简单看下效果。 相关链接 论文:arxiv.org/abs/2403.17694 代码:github.com/Zejun-Yang/AniPortrait Jupyter:github.com/camenduru/AniPortrait-jupyter 论文阅读 AniPortrait:逼真的人像动画的音频驱动合成 摘要 这项研究提出了一个新的框架:AniPortrait。生成由音频和参考肖像图像驱动的高质量动画。方法分为两个阶段。 最初,我们从音频中提取 3D 中间表示并将其投影到一系列 2D 面部标志中。 随后,我们采用鲁棒的扩散模型,结合运动模块,将地标序列转换为逼真且时间一致的肖像动画。 实验结果证明了AniPortrait在面部自然度、姿势多样性和视觉质量方面的优越性,从而提供了增强的感知体验。 此外,我们的方法
………………………………