央视点赞国产AI复活召唤术，兵马俑竟与宝石老舅对唱Rap？

机器之心 · 公众号 · AI · 2024-07-03 19:07

主要观点总结

文章介绍了基于人工智能的EMO技术在视频生成领域的突破性应用，包括在央视节目中的表演复活、社交媒体上的普法活动以及其对视频生成技术的发展带来的影响。文章还详细阐述了EMO技术的底层技术原理、创新点及其与现有技术的对比。

关键观点总结

关键观点1: EMO技术的核心应用

EMO技术被用于复活历史人物、在线普法活动以及媒体艺术融合。通过基于音频的人物视频生成，实现了生动自然的表演效果。

关键观点2: EMO技术的底层技术创新

EMO的关键创新点在于“弱控制设计”，能够解决视频生成中的信息压缩问题，提升视频生成质量。此外，弱控制体现在从音频中提取信息生成视频，无需复杂的预处理，能够创造出自然流畅且表情丰富的人像视频。

关键观点3: EMO技术的数据集与训练

研究团队为EMO模型构建了一个庞大而多样的音视频数据集，涵盖各种内容和语言。在训练过程中，设计了高保真数据编码算法，以尽可能保持原始信息的丰富细节和动态范围。

关键观点4: 视频生成技术的现状与挑战

视频生成领域正在迅速发展，但仍面临诸多挑战，如生成真实视频的能力、处理大规模高质量视频数据的需求以及对弱关系学习的不足等。通义实验室的技术积累和研究矩阵在该领域具有重要地位。

关键观点5: 未来展望与实用化进程

视频生成技术正朝着实用化的方向发展，人们期待出现人人可用的AI视频生成平台。EMO技术可能是打破这一局面的重要技术突破，其在实际应用中的表现展示了极具潜力的应用空间。

文章预览

机器之心报道作者：蛋酱沉睡了两千多年的兵马俑，苏醒了？ ‍ 一句秦腔开场，将我们带到了黄土高原。如果不是亲眼所见，很多观众可能难以想象，有生之年还能看到兵马俑和宝石 Gem 同台对唱《从军行》。「青海长云暗雪山，孤城遥望玉门关。」古调虽存音乐变，声音依旧动人情： ‍ 这场表演背后的「AI 复活召唤术」，叫做 EMO，来自阿里巴巴通义实验室。仅仅一张照片、一个音频，EMO 就能让静止形象变为惟妙惟肖的唱演视频，且精准卡点音频中的跌宕起伏、抑扬顿挫。在央视《2024 中国・AI 盛典》中，同样基于 EMO 技术，北宋文学家苏轼被「复活」，与李玉刚同台合唱了一曲《水调歌头》。「AI 苏轼」动作古朴自然，仿佛穿越时空而来：在 EMO 等 AI 领域前沿技术的激发下，首个以人工智能为核心的国家级科技盛宴《2024 中国・AI 盛典》盛 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博