文章预览
今天是2024年7月21日,星期日,北京,天气晴。 昨天, 老刘说NLP社区第26讲《2024年上半年大模型发展回顾暨7月份半月度KG/RAG/LLM技术总结》 顺利结束,下半年,我们继续加油。 昨天提到近半年来语音方面的一些进展,提到一些有趣的语音合成项目,这是 数字人相关的底层技术 ,我们今天来看看。 项目很多,主要看6个代表性的,包括: GPT-SoVITS、metavoice-src、EmotiVoice、Fish Speech、ChatTTS、Seed-TTS 。 供大家一起思考并参考。 1、GPT-SoVITS GPT-SoVITS是一个开源的、交互式的语音合成工具,它允许用户通过少量的样本训练来生成逼真的语音:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e。 由参考音频的情感、音色、语速控制合成音频的情感、音色、语速,可以少量语音微调训练,也可不训练直接推理,可以跨语种生成,即参考音频(训练集)和推理文本的
………………………………