今天看啥  ›  专栏  ›  AI for Research

字节发布stereo-talker: 音频驱动的 3D 人类合成 | 模型编辑性能下降的原因及解决方案研究 ....

AI for Research  · 公众号  ·  · 2024-11-01 19:23
    

文章预览

前言: 如果你想成为一只科学界的“独角兽”,那么看论文是必不可少的。只有掌握了最新的技术和理论,才能在这个竞争激烈的市场中脱颖而出,成为那只最闪亮的“独角兽”! 1.  stereo-talker: 音频驱动的 3D 人类合成   标题: Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts   机构: 清华大学、字节跳动、Apple   关键词: 大模型、数据集、语音合成、视频生成   作者: Xiang Deng,  Youxin Pang,  Xiaochen Zhao   分析: 这篇论文介绍了一个新的1次音频驱动的 3D 谈话视频合成系统,可以生成带有精确唇同步、表情动作、时间一致的照片真实感以及连续视角控制的 3D 谈话视频。这个过程遵循两阶段的策略。在第一阶段,系统将音频输入映射到高保真动作序列,包括上半身动作和面部表情。为了丰富动作多样性和真实性,将大语言模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览