专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

Emo-DPO:通过直接偏好优化实现可控的情绪语音合成

FightingCV  · 公众号  ·  · 2024-10-05 09:00
    

文章预览

摘要 当前的情绪文本到语音 (TTS) 模型主要进行监督训练,以学习从文本和所需情绪到其情绪语音的转换,侧重于每对文本语音中的单一情绪。 这些模型只学习了正确的情绪输出,而没有完全理解其他情绪特征,这限制了它们捕获不同情绪之间细微差别的能力。 我们提出了一种可控的 Emo-DPO 方法,它采用直接偏好优化,通过优化对优选情绪而不是较不优选的情绪来区分情绪之间的细微情绪差异。 我们没有依赖现有情绪 TTS 模型中使用的传统神经架构,而是建议利用情绪感知 LLM-TTS 神经架构,以利用 LLM 的上下文学习和指令遵循能力。 全面的实验结果证实,我们提出的方法优于现有的基线方法。 索引词:  语音合成,大型语言模型,文本到语音 (TTS),情绪。 I 引言 人类产生的语音自然地在不同的情绪中有所不同  [1, 2, 3, 4] 。 情绪语音合成旨在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览