专栏名称: 智源社区助手
智源社区活动及信息通知
今天看啥  ›  专栏  ›  智源社区助手

直播报名|完全开源!基于流匹配扩散模型的非自回归系统,F5-TTS合成流畅自然语音

智源社区助手  · 公众号  ·  · 2024-10-25 15:29
    

文章预览

报告主题: 完全开源!基于流匹配扩散模型的非自回归系统,F5-TTS合成流畅自然语音 报告日期: 1 0月29日(周二)10:30-11:30 报告要点: F5-TTS是一款基于流匹配和Diffusion Transformer(DiT)的非自回归语音合成系统。 无需复杂设计:无需音素时长模型、音素对齐或文本编码器,直观地文本进语音出。 高效训练与推理:采用DiT作为模型结构,利用ConvNeXt优化文本表示,相比此前同类模型训练更快,稳定性更强。引入Sway Sampling推理时时间步采样策略,在保持性能的同时极大提高模型推理速度,可直接应用于现有的基于流匹配模型,无需重新训练。 多语言、多风格、多语速:在10万小时中英双语数据集上训练,具备强大的零样本生成能力,支持无缝语言切换和语速控制,生成具有丰富表现力的语音。 开源共建:我们开放所有代码和模型,期待与社区共同推动 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览