文章预览
给大家分享一个效果很棒的文本转语音开源模型:MaskGCT!这是由 港中大(深圳)联手趣丸科技联合推出了新一代大规模声音克隆。 与先有的文本转语音模型相比, MaskGCT 生成的语音更自然、更连贯。而且这个开源模型,支持控制生成的语音的总长度、语速、停顿、预期等特征。可以修改已经生成的语音或者支持声音克隆。 话不多少,直接点开下面视频看看效果。 01 音色模仿 可以点开如下视频听听声音模仿的效果,预期、停顿、音色还原的都非常好 PS: 请忽略背景中 dangdang 的杂音,是我在录制的时候我家猫在扒柜子 02 模拟情绪 可以通过声音来辨别人目前处于何种情绪状态,比如愤怒、开心、恐惧等。 MaskGCT 对此也实现了精准模拟,请看如下这个例子。 03 模仿说话风格 咖喱味儿、大舌头的发音,也能精确模拟。 04 MaskGCT 的架构 MaskGCT(Masked Gen
………………………………