MaskGCT：这款全新的开源语音大模型太强了，击败CosyVoice、XTTS-v2（视频翻译、声音克隆、跨语种合成）

AI进修生 · 公众号 · · 2024-10-27 14:03

文章预览

🍹 Insight Daily 🪺 Aitrainee | 公众号：AI进修生 Hi，这里是Aitrainee，欢迎阅读本期新文章。分享一个效果非常不错的TTS ，一个完全非自回归的TTS模型，实现了 SOTA 零样本 TTS 性能。由趣丸科技联合香港中文大学（深圳）开源。区别于传统TTS模型，该模型采用掩码生成模型与语音表征解耦编码的创新范式，在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。我们先来看效果 MaskGCT 可以模仿名人或动画节目中角色的声音。还有如下零样本情境学习的效果：零样本 TTS 系统：指在没有针对特定任务的训练数据的情况下，模型依然能生成自然的语音；即无需训练可以模仿任何人的声音。它不需要文本与语音之间的显式对齐信息，也无需音素级持续时间预测，采用掩码和预测的学习方式。支持控制生成语音的总长度，调节语速、停顿等 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

MaskGCT：这款全新的开源语音大模型太强了，击败CosyVoice、XTTS-v2（ 视频翻译、声音克隆、跨语种合成 ）

文章预览

MaskGCT：这款全新的开源语音大模型太强了，击败CosyVoice、XTTS-v2（视频翻译、声音克隆、跨语种合成）