专栏名称: 老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

数字人底层技术之6个语音合成代表项目：从GPT-SoVITS到Seed-TTS

老刘说NLP · 公众号 · · 2024-07-21 12:30

文章预览

今天是2024年7月21日，星期日，北京，天气晴。昨天，老刘说NLP社区第26讲《2024年上半年大模型发展回顾暨7月份半月度KG/RAG/LLM技术总结》顺利结束，下半年，我们继续加油。昨天提到近半年来语音方面的一些进展，提到一些有趣的语音合成项目，这是数字人相关的底层技术，我们今天来看看。项目很多，主要看6个代表性的，包括： GPT-SoVITS、metavoice-src、EmotiVoice、Fish Speech、ChatTTS、Seed-TTS 。供大家一起思考并参考。 1、GPT-SoVITS GPT-SoVITS是一个开源的、交互式的语音合成工具，它允许用户通过少量的样本训练来生成逼真的语音：https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e。由参考音频的情感、音色、语速控制合成音频的情感、音色、语速，可以少量语音微调训练，也可不训练直接推理，可以跨语种生成，即参考音频（训练集）和推理文本的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博