音频驱动人像视频模型：字节Loopy、CyberHost研究成果揭秘

机器之心 · 公众号 · AI · 2024-09-12 12:46

文章预览

机器之心发布机器之心编辑部近期，来自字节跳动的视频生成模型 Loopy，一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频，对声音中呼吸，叹气，挑眉等细节都能生成的非常自然，让网友直呼哈利波特的魔法也不过如此。 Loopy 模型采用了 Diffusion 视频生成框架。输入一张图片和一段音频，就可以生成相应的视频。不但可以实现准确的音频和口型同步，还可以生成细微自然的表情动作，例如人物跟随情绪节奏做出抬眉、吸气、憋嘴停顿、叹气、肩膀运动等非语言类动作也能很好地被捕捉到；在唱歌时也能表现得活灵活现，驾驭不同风格。柔和高昂 rap 更多丰富风格的展示，可移步项目主页：https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634 在不同的图片风格上，Loopy 也都表现得不错，像古风画像、 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

AIGC开放社区 · 超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

4 天前

AIGC开放社区 · 超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

4 天前

爱可可-爱生活 · 【信息熵新解：探索信息论中的熵概念，探讨了一种替代的 Shann-20241118103458

5 天前

爱可可-爱生活 · 本文提出一种新的非对抗性逆强化学习方法SFM，通过直接策略优化匹-20241118054423

5 天前

爱可可-爱生活 · 本文提出了一种基于快速响应的LLM越狱防御新范式，通过“越狱扩增-20241117064706

6 天前

爱可可-爱生活 · 今日推介(第1592期)：用少量样本减轻LLM越狱、软硬件平台推-20241117074519

6 天前

新浪科技 · 【#问界公布中汽吐鲁番夏季高温测试结果#：行驶总里程超1100k-20240716185000

4 月前

中国保险资产管理业协会 · 舆情日报丨保险资管舆情2024年9月10日

2 月前