JoyHallo：来自京东健康的高质量跨语言数字人视频生成模型

ADFeed · 公众号 · · 2024-09-27 11:15

文章预览

JoyHallo: Digital human model for Mandarin 介绍： https://jdh-algo.github.io/JoyHallo/ 代码： https://github.com/jdh-algo/JoyHallo 论文： https://arxiv.org/abs/2409.13268 JoyHallo 是由京东健康团队开发的一款数字人模型，专为普通话视频生成而设计。它通过采用wav2vec2模型进行音频特征嵌入，以及创新的半解耦结构，有效解决了普通话视频生成中的复杂口型运动和数据集稀缺问题。JoyHallo 模型不仅提高了视频生成的质量和推理速度，还保持了优秀的跨语言生成能力，能够同时生成高质量的普通话和英语视频。该模型的半解耦结构是其核心特点，它通过初始耦合处理面部特征，如唇部运动、表情和头部姿态，然后通过交叉注意力模块分离这些特征，以捕捉它们之间的相互关系。这种结构不仅提高了唇部运动预测的准确性，还增强了整体视频质量，尤其是在普通话视频生成中。此外 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

艾儿天空 · 万订小说个人完本书单，玄幻仙侠、轻小说科幻、悬疑等64本

13 小时前

可爱多手工艺术 · 用线围着一块纸板绣完一层又一层再从中间剪开，刺绣竟能如此惊艳，家家都用得上！

16 小时前

艾儿天空 · 个人书单都市完结篇分享，浓墨浇书未能首订破万，花非花月夜新书已切

2 天前

晓磊的基金生活 · #基金# 【为什么我总是以“非常防御”的姿态来回答问题？】去年四-20240811204244

5 月前

圆圆的算法笔记 · 时间序列+深度学习干货笔记专栏

3 月前

青年维也纳 · 被人当成空气也是一种幸福 | 青年维也纳

1 月前