专栏名称: AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
目录
相关文章推荐
中国基金报  ·  520亿,抄底!抄底 ·  2 小时前  
中国基金报  ·  罕见!集体飙升 ·  2 天前  
今天看啥  ›  专栏  ›  AI进修生

MaskGCT:这款全新的开源语音大模型太强了,击败CosyVoice、XTTS-v2( 视频翻译、声音克隆、跨语种合成 )

AI进修生  · 公众号  ·  · 2024-10-27 14:03

文章预览

🍹  Insight Daily  🪺 Aitrainee | 公众号:AI进修生 Hi,这里是Aitrainee,欢迎阅读本期新文章。 分享一个效果非常不错的TTS ,一个完全非自回归的TTS模型, 实现了 SOTA 零样本 TTS 性能 。 由 趣丸科技联合香港中文大学(深圳)开源。 区别于传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。 我们先来看效果 MaskGCT 可以模仿名人或动画节目中角色的声音。 还有 如下零样本情境学习的效果: 零样本 TTS 系统:指在没有针对特定任务的训练数据的情况下,模型依然能生成自然的语音; 即无需训练可以模仿任何人的声音 。 它不需要文本与语音之间的 显式对齐信息 ,也无需音素级持续时间预测,采用掩码和预测的学习方式。 支持控制生成语音的总长度,调节语速、停顿等 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览