专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

迈向可控语音合成:大语言模型时代的综述

专知  · 公众号  ·  · 2024-12-14 11:00
    

文章预览

摘要 语音合成(TTS),也称为文本转语音,是一项重要的研究领域,旨在从文本生成自然的语音。近年来,随着工业需求的增加,TTS技术已从简单的人类语音合成发展到可控语音生成。这包括对合成语音中各种属性(如情感、韵律、音色和时长)的细粒度控制。此外,深度学习领域的进展,尤其是扩散模型和大语言模型,极大地提升了可控TTS的效果。本文全面综述了可控TTS的研究进展,涵盖了从基本控制技术到利用自然语言提示的方法,旨在为当前的研究状态提供清晰的理解。我们探讨了通用的可控TTS流程、面临的挑战、模型架构和控制策略,并提供了现有方法的全面分类。此外,我们还详细总结了数据集和评估指标,并探讨了可控TTS的应用和未来发展方向。据我们所知,本文是首次对新兴的可控TTS方法进行全面综述,既可以为学术研究人员提供 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览