专栏名称: AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

开源EMO再升级！复旦|百度|南大推出Hallo2：可以生成4K，一小时的音频驱动的视频。

AIGC Studio · 公众号 · 科技媒体 · 2024-10-19 00:00

主要观点总结

文章介绍了复旦大学的开源项目Hallo2，一个音频驱动的肖像图像动画生成模型。该模型能够处理单个参考图像和长时间音频输入，生成高分辨率4K视频。文章还详细描述了Hallo2的三个核心技术：解决长时间视频外观一致性问题的方法，实现4K视频生成的方法，以及在音频基础上引入可调节文本提示的方法。最后，文章提供了相关链接供读者深入了解和学习。

关键观点总结

关键观点1: 复旦大学的开源项目Hallo2介绍

Hallo2是一个音频驱动的肖像图像动画生成模型，能够处理单个参考图像和长时间音频输入，生成高分辨率4K视频。

关键观点2: Hallo2解决长时间视频外观一致性问题的方法

通过采用补丁丢弃数据增强技术，确保模型在生成长时间视频时保持外观一致性。

关键观点3: Hallo2实现4K视频生成的方法

通过扩展向量量化生成对抗网络（VQGAN），引入时间对齐机制，确保生成视频的平滑过渡和高分辨率细节。

关键观点4: Hallo2引入可调节文本提示的方法

在音频信号的基础上引入可调节的文本提示，增强对肖像表情和运动的控制能力，使生成的动画更加生动和富有表现力。

文章预览

在之前的文章中已经和大家介绍过复旦大学开源的Hallo项目，感兴趣的小伙伴可以点击以下链接阅读~ 复旦发布开源版本的EMO，只需输入一段音频和一张照片就可以让人物开始说话。复旦开源版本EMO:真实人物效果复旦开源版本EMO:运动控制效果今天给大家介绍Hallo的升级版本Hallo2，该方法处理单个参考图像以及持续几分钟的音频输入。此外，可以以不同的间隔引入可选的文本提示，以调节和细化肖像的表情。最终输出的是高分辨率 4K 视频，该视频与音频同步，并受可选表情提示的影响，确保整个视频的连续性。相关链接论文地址：http://arxiv.org/abs/2410.07718v1 项目主页：https://fudan-generative-vision.github.io/hallo2 代码地址：https://github.com/fudan-generative-vision/hallo2 试用地址：https://huggingface.co/fudan-generative-ai/hallo2 论文阅读 Hallo2:长时间、高分辨率音频驱动 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博