AI「视觉图灵」时代来了！字节OmniHuman，一张图配上音频，就能直接生成视频

机器之心 · 公众号 · AI · 2025-02-05 16:19

主要观点总结

机器之心发布：字节跳动数字人团队推出了新的多模态数字人方案OmniHuman，能够对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成。该方案采用Omni-Conditions Training混合多模态训练策略，生成的人物视频效果生动，具有非常高的自然度，对肖像、半身以及全身等不同人物占比、不同图片尺寸的输入都可通过单个模型支持。相较于现有技术，OmniHuman显著优于现有方法，支持从弱信号（尤其是音频）生成生动的人类视频，并已在即梦AI中落地。

关键观点总结

关键观点1: OmniHuman方案的特点

采用Omni-Conditions Training混合多模态训练策略；生成的人物视频效果生动，自然度高；支持任意尺寸和人物占比的图片输入；对肖像、半身以及全身等不同人物占比、不同图片尺寸的输入都可通过单个模型支持。

关键观点2: OmniHuman的技术优势

显著优于现有方法，能够从弱信号（尤其是音频）生成生动的人类视频；解决了高质量数据稀缺的问题，从大规模数据训练中受益；学习自然的运动模式。

关键观点3: 应用与落地

OmniHuman已在即梦AI中落地，相关技术未来可应用于抖音、剪映、头条等字节跳动的产品线，同时也可为外部ToB合作伙伴提供智能创作能力与行业解决方案。

文章预览

机器之心发布机器之心编辑部还记得半年前在 X 上引起热议的肖像音频驱动技术 Loopy 吗？升级版技术方案来了，字节跳动数字人团队推出了新的多模态数字人方案 OmniHuman, 其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成，生成的人物视频效果生动，具有非常高的自然度。如对下面图片和音频： OmniHuman 生成的人物可以在视频中自然运动：从项目主页上可以看到 OmniHuman 对肖像、半身以及全身这些不同人物占比、不同图片尺寸的输入都可以通过单个模型进行支持，人物可以在视频中生成和音频匹配的动作，包括演讲、唱歌、乐器演奏以及移动。对于人物视频生成中常见的手势崩坏，也相比现有的方法有显著的改善。作者也展示模型对非真人图片输入的支持，可以看到对动漫、3D 卡通的支持也很不错，能保持特定风 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博