专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【AAAI2025】StableVC:基于条件流匹配的风格可控零样本语音转换

专知  · 公众号  ·  · 2024-12-16 11:00
    

文章预览

零-shot语音转换(VC)旨在将源说话人的音色转换为任意未见说话人的音色,同时保持原始的语言内容。尽管基于语言模型或扩散方法的零-shot VC在最近取得了一些进展,但仍然面临一些挑战:1)当前的方法主要集中在适应未见说话人的音色,无法独立地将风格和音色转换为不同的未见说话人;2)这些方法通常由于自回归建模方法或需要多个采样步骤,导致推理速度较慢;3)转换样本的质量和相似度仍然未能完全令人满意。为了解决这些挑战,我们提出了一种名为StableVC的风格可控零-shot VC方法,旨在将音色和风格从源语音转换到不同的未见目标说话人。具体来说,我们将语音分解为语言内容、音色和风格,然后采用条件流匹配模块,根据这些分解的特征重建高质量的梅尔频谱图。为了有效地以零-shot的方式捕捉音色和风格,我们引入了一种新颖的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览