文章预览
01 引言 上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。F5-TTS不需要复杂的模型设计,如持续时间模型、文本编码器和音素对齐等,只需要将输入文本填充为与输入语音相同的长度,并进行去噪以生成语音,这最初由E2-TTS证明是可行的。然而,E2-TTS的设计使得其收敛速度慢且鲁棒性低。 为了解决这些问题,F5-TTS首先使用ConvNeXt来细化文本表示,使其更容易与语音对齐。 此外,F5-TTS还提出了一种在推理时采样的策略,显著提高了模型性能和效率。 这种flow step的采样策略可以轻松应用于现有的基于flow matching的模型而无需重新训练。 F5-TTS的设计允许更快的训练并实现0.15的推理RTF,相比最先进的扩散式TTS模型有了很大的提高。 在
………………………………