专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

浙大&阿里联合开源AudioLCM,在通用音频合成领域实现潜在一致性模型的新突破

PaperWeekly  · 公众号  · 科研  · 2024-07-31 22:32

文章预览

文本到通用音频生成(Text-to-Audio Generation,简称 TTA)作为生成任务的一个子领域,涵盖了音效创作、音乐创作和合成语音,具有广泛的应用潜力。在此前的神经 TTA 模型中,潜在扩散模型(Latent Diffusion Models,LDMs)在众多生成任务中表现卓越。然而,LDMs 的迭代采样过程带来了巨大的计算负担,导致生成速度缓慢,从而限制了它们在实际 TTA 应用中的部署。 为了解决这一问题,浙大联合阿里提出了一种新型的高效高质量文本-音频生成模型——AudioLCM。该模型将一致性模型(Consistency Models,CMs)融入生成过程,并引入了多步常微分方程(multi-step ODE)求解器的指导一致性蒸馏技术。同时,将 LLaMA 开创的先进技术集成到 Transformer 基础框架中,确保了强大的文本到音频合成性能。 实验结果显示,AudioLCM 仅需 2 次迭代即可合成高保真音频,同时保持了与使 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览