今天看啥  ›  专栏  ›  机器之心

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

机器之心  · 公众号  · AI  · 2024-09-12 12:46

文章预览

机器之心发布 机器之心编辑部 近期,来自字节跳动的视频生成模型 Loopy,一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频,对声音中呼吸,叹气,挑眉等细节都能生成的非常自然,让网友直呼哈利波特的魔法也不过如此。 Loopy 模型采用了 Diffusion 视频生成框架。输入一张图片和一段音频,就可以生成相应的视频。不但可以实现准确的音频和口型同步,还可以生成细微自然的表情动作,例如人物跟随情绪节奏做出抬眉、吸气、憋嘴停顿、叹气、肩膀运动等非语言类动作也能很好地被捕捉到;在唱歌时也能表现得活灵活现,驾驭不同风格。 柔和 高昂 rap 更多丰富风格的展示,可移步项目主页:https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634 在不同的图片风格上,Loopy 也都表现得不错,像古风画像、 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览