今天看啥  ›  专栏  ›  ADFeed

JoyHallo:来自京东健康的高质量跨语言数字人视频生成模型

ADFeed  · 公众号  ·  · 2024-09-27 11:15

文章预览

JoyHallo: Digital human model for Mandarin 介绍: https://jdh-algo.github.io/JoyHallo/ 代码: https://github.com/jdh-algo/JoyHallo 论文: https://arxiv.org/abs/2409.13268 JoyHallo  是由京东健康团队开发的一款数字人模型,专为普通话视频生成而设计。 它通过采用wav2vec2模型进行音频特征嵌入,以及创新的半解耦结构,有效解决了普通话视频生成中的复杂口型运动和数据集稀缺问题。JoyHallo 模型不仅提高了视频生成的质量和推理速度,还保持了优秀的跨语言生成能力,能够同时生成高质量的普通话和英语视频。 该模型的半解耦结构是其核心特点,它通过初始耦合处理面部特征,如唇部运动、表情和头部姿态,然后通过交叉注意力模块分离这些特征,以捕捉它们之间的相互关系。这种结构不仅提高了唇部运动预测的准确性,还增强了整体视频质量,尤其是在普通话视频生成中。 此外 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览