今天看啥  ›  专栏  ›  GitHubStore

炸裂!效果非常自然逼真!人类无法区分的语音克隆模型ChatTTS!

GitHubStore  · 公众号  ·  · 2024-05-31 11:27
    

文章预览

项目简介 这 个语音克隆模型的效果非常自然逼真,作者还只放出了4w小时训练的版本,确保这个模型的声音能被ai检测出来。作者还留着一个10w小时训练数据的版本。 这个语音专文本TTS模型 应该是目前对中文支持最好的了。问了周围人,确实区分不出来声音是不是生成的。 ChatTTS:专门为对话场景设计的文本到语音TTS模型 该模型经过超过10万小时的训练,公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。 专为对话任务优化,能够支持多种说话人语音,中英文混合等。 模型还能够预测和控制细粒度的韵律特征,如笑声、停顿和插话等,还能进行更细粒度的调整,如语速、音调和情感等。 亮点 对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。 细粒度控制: 该模型能够预测和控制细粒度的韵律特 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览