字节整新活！照片+音频让蒙娜丽莎秒变播客主理人

机器之心 · 公众号 · AI · 2024-12-24 12:22

主要观点总结

本文介绍了机器之心AIxiv专栏以及字节跳动智能创作数字人团队的新技术INFP。INFP是一种交互式人像生成技术，能够在多轮对话中实现自由的听说行为以及无缝的状态切换。该技术对于构建视觉对话智能体至关重要，有效促进了学术交流与传播。文章详细描述了INFP技术的两个阶段：Motion-Based Head Imitation和Audio-Guided Motion Generation，并提供了实验结果和效果展示。最后，介绍了字节跳动智能创作数字人团队的相关背景和职责。

关键观点总结

关键观点1: 机器之心AIxiv专栏简介

该专栏用于发布学术、技术内容，过去数年间报道了2000多篇内容，涉及全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。

关键观点2: INFP技术介绍

INFP是一种交互式人像生成技术，能够像真人一样在多轮对话中实现自由的听说行为以及无缝的状态切换，对于构建视觉对话智能体具有重要意义。

关键观点3: INFP技术的两个阶段

INFP包含两个阶段：Motion-Based Head Imitation和Audio-Guided Motion Generation。第一阶段学习如何提取对话时的交互和运动行为，并将其映射到运动隐空间；第二阶段将双轨对话音频输入映射到运动隐空间，以获得相应的运动潜码。

关键观点4: 实验结果和效果展示

文章从多个方面详细对比了INFP和其他方案，证明了该方法的有效性。同时，还展示了INFP在动作多样性、非真人效果以及即时交互demo等方面的效果。

关键观点5: 字节跳动智能创作数字人团队介绍

该团队是字节跳动AI和多媒体技术团队的一部分，专注于建设行业领先的数字人生成和驱动技术，丰富智能创作内容生态。目前，该团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。

文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com 本文作者来自字节跳动智能创作数字人团队，介绍了名为「 INFP」的交互式人像生成技术。利用该技术生成的智能体能像真人一样在多轮对话中实现自由的听说行为以及无缝的状态切换。在大语言模型和 AIGC 的热潮下，科研人员对构建「视觉对话智能体」（Visual Chat Agent）展现出极大兴趣。其中，可实时交互的人像生成技术（Audio-Driven Real-Time Interactive Head Generation）是实现链路中极为关键的一环。它确保了在与用户的多轮对话过程中，智能体形象能够像真人一样提供自 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博