专栏名称: 魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
今天看啥  ›  专栏  ›  魔搭ModelScope社区

MaskGCT:登上GitHub趋势榜榜首的TTS开源大模型

魔搭ModelScope社区  · 公众号  ·  · 2024-10-29 19:07

文章预览

01 前言 近日,香港中文大学(深圳)联手趣丸科技推出了新一代大规模声音克隆TTS模型——MaskGCT。该模型在包含10万小时多语言数据的Emilia数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语种生成能力,同时保持了较强的稳定性。MaskGCT已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统Amphion发布, Amphion 今天登上了Github global trending榜首! 现有大规模文本到语音(TTS)系统通常分为自回归和非自回归系统。自回归系统隐式地建模持续时间,但在鲁棒性和持续时间可控性方面存在一定缺陷。非自回归系统在训练过程中需要显式的文本与语音对齐信息,并预测语言单元(如音素)的持续时间,这可能会影响其自然度。本文介绍了一种名为Masked Generative Codec Transformer(MaskGCT)的全非自回归TTS模型,该模型消除了文本与 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览