文章预览
🍹 Insight Daily 🪺 Aitrainee | 公众号:AI进修生 Hi,这里是Aitrainee,欢迎阅读本期新文章。 分享一个效果非常不错的TTS ,一个完全非自回归的TTS模型, 实现了 SOTA 零样本 TTS 性能 。 由 趣丸科技联合香港中文大学(深圳)开源。 区别于传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。 我们先来看效果 MaskGCT 可以模仿名人或动画节目中角色的声音。 还有 如下零样本情境学习的效果: 零样本 TTS 系统:指在没有针对特定任务的训练数据的情况下,模型依然能生成自然的语音; 即无需训练可以模仿任何人的声音 。 它不需要文本与语音之间的 显式对齐信息 ,也无需音素级持续时间预测,采用掩码和预测的学习方式。 支持控制生成语音的总长度,调节语速、停顿等
………………………………