专栏名称: soft张三丰
分享最新的技术咨询,了解更多行业动态!
今天看啥  ›  专栏  ›  soft张三丰

【开源】复旦和百度最新开源项目数字人技术一张图片加音频就能说话

soft张三丰  · 公众号  ·  · 2024-10-27 11:30
    

文章预览

数字人技术 Hallo数字人技术是一项由复旦大学、百度公司、苏黎世联邦理工学院和南京大学共同研究的创新技术,它专注于音频驱动的肖像图像动画生成。以下是关于Hallo数字人技术的详细解析: 一、技术原理 1. 音频驱动视觉合成:Hallo技术通过音频输入(如语音)来驱动生成逼真且动态的肖像图像视频。这一过程中,Hallo摒弃了传统的参数模型,采用了一种全新的端到端扩散范式,并引入了一个层次化的音频驱动视觉合成模块。 2. 扩散生成模型:该技术利用基于扩散的生成模型来创建动画,这种模型能够更好地控制动画的细节,提高生成图像的质量。 3. UNet去噪器:为了进一步提高图像质量,Hallo采用了基于UNet的去噪技术,通过清理动画中的“噪音”,使动画看起来更清晰。 4. 时间对齐技术:为了确保动画在时间上的连贯性,Hallo使用了时间对 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览