专栏名称: 孔某人的低维认知
孔某人低维认知中世界的投影,世界很复杂,但人的认知总是过于简单。 ####关注领域:LLM技术及应用、认知科学、决策规划、机器学习、提升生产率的技术方案等。
今天看啥  ›  专栏  ›  孔某人的低维认知

对目前TTS领域的个人看法

孔某人的低维认知  · 公众号  ·  · 2024-11-13 14:46

文章预览

之前我讲过对于STT(Speech to Text)方案的使用体验,这次来讲一下对于高质量TTS的使用体验。 1、普通听感 TTS也是个挺早的领域了,大模型时代之前的TTS听感其实不算好,特别是很多场景就是图便宜、图自主可控。例如说滴滴司机端的TTS,相信很多人都听过,效果只能说能知道文本是啥,但我是不想用。 现在各大云服务商都有TTS,听感明显要好一些,例如Azure的TTS就被很多人推荐。现在各家也开始增加了带有感情的TTS功能。这一档的TTS其实已经算可以用了。不过Azure的付费门槛还是有的,有些视频就拿一个国产西游记孙悟空的嗓音进行配音,大概也有掩盖它使用的TTS听感较差的考虑。 更好的TTS是高端数字人定制的场景,例如《得到》万维钢专栏的配音已经从怀沙真人换成了怀沙AI,但我作为用户几乎听不出差异,这类就已经算是目前效果最好的方案了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览