专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

VALL-E 2,大幅提升语音大模型的稳健性与自然度

arXiv每日学术速递  · 公众号  ·  · 2024-09-12 12:43

文章预览

(本文阅读时间:9分钟) 编者按:文本到语音合成(Text-to-Speech,TTS)是一种将书面文字转化为自然语音的技术,在提高无障碍性、增强跨语言交流等方面发挥着重要作用。微软亚洲研究院此前推出了第一个离散编码的语音大模型 VALL-E,并在此基础上通过重复感知采样和分组编码建模技术将其升级为 VALL-E 2 版本。新版本突破了语音稳健性、自然度和说话人相似度方面的界限,让零样本 TTS 性能在 LibriSpeech 和 VCTK 数据集上与人类水平相近。 近年来人工智能技术的飞速发展,不断推动着文本到语音合成(Text-to-Speech,TTS)技术的边界。TTS 技术的持续优化与创新,为人们提供了丰富、便捷的语音交互体验,相关的研究成果在教育、娱乐以及多语言交流等多个领域都有着广泛的应用前景。 传统的 TTS 系统仅仅使用来自录音室的高质量且干净的语音数据进 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览