字节发布stereo-talker: 音频驱动的 3D 人类合成 | 模型编辑性能下降的原因及解决方案研究 ....

AI for Research · 公众号 · · 2024-11-01 19:23

文章预览

前言：如果你想成为一只科学界的“独角兽”，那么看论文是必不可少的。只有掌握了最新的技术和理论，才能在这个竞争激烈的市场中脱颖而出，成为那只最闪亮的“独角兽”！ 1. stereo-talker: 音频驱动的 3D 人类合成标题： Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts 机构：清华大学、字节跳动、Apple 关键词：大模型、数据集、语音合成、视频生成作者： Xiang Deng, Youxin Pang, Xiaochen Zhao 分析：这篇论文介绍了一个新的1次音频驱动的 3D 谈话视频合成系统，可以生成带有精确唇同步、表情动作、时间一致的照片真实感以及连续视角控制的 3D 谈话视频。这个过程遵循两阶段的策略。在第一阶段，系统将音频输入映射到高保真动作序列，包括上半身动作和面部表情。为了丰富动作多样性和真实性，将大语言模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

传媒招聘那些事儿 · 网易：资深发行运营

11 小时前

前程无忧51job · 当领导的，最好有个“恋爱脑”

昨天

药明康德 · 攻克不可成药靶点，诺华分子胶蛋白降解剂最新研究登《科学》

10 月前

广州房产 · 首付12万，在广州买3房2卫！月供才2700元……

2 月前

慈铭体检集团 · 还吃？国家喊你减肥啦！行动之前先避开这些“坑”

1 月前

南国早报 · 南宁民歌湖一夜之间成这样！回应来了→

1 周前