VALL-E 2，大幅提升语音大模型的稳健性与自然度

微软亚洲研究院 · 公众号 · AI · 2024-09-10 17:08

主要观点总结

本文主要介绍了微软亚洲研究院推出的文本到语音合成技术的升级版本VALL-E 2。VALL-E 2采用了重复感知采样和分组编码建模技术，突破了语音稳健性、自然度和说话人相似度方面的界限，实现了零样本TTS性能在LibriSpeech和VCTK数据集上与人类水平相近。该技术在教育、娱乐、多语言交流等领域有广泛的应用前景。

关键观点总结

关键观点1: 微软亚洲研究院推出了VALL-E 2，基于离散编码的语音大模型，并采用了重复感知采样和分组编码建模技术。

VALL-E 2突破了语音合成的多项界限，在LibriSpeech和VCTK数据集上的性能达到了与人类水平相近。

关键观点2: VALL-E 2的技术优势体现在稳健性、自然度和说话人相似度方面。

通过重复感知采样和分组编码建模技术，VALL-E 2能够可靠地合成复杂句子的语音，包括那些难以阅读或包含大量重复短语的句子。

关键观点3: VALL-E 2的应用前景广泛。

VALL-E 2在教育学习、娱乐、新闻、自创内容、无障碍功能等领域都有广泛的应用前景。

关键观点4: 微软致力于推进负责任的人工智能发展。

微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险，并发布了负责任的人工智能原则和标准。

文章预览

（本文阅读时间：9分钟）编者按：文本到语音合成（Text-to-Speech，TTS）是一种将书面文字转化为自然语音的技术，在提高无障碍性、增强跨语言交流等方面发挥着重要作用。微软亚洲研究院此前推出了第一个离散编码的语音大模型 VALL-E，并在此基础上通过重复感知采样和分组编码建模技术将其升级为 VALL-E 2 版本。新版本突破了语音稳健性、自然度和说话人相似度方面的界限，让零样本 TTS 性能在 LibriSpeech 和 VCTK 数据集上与人类水平相近。近年来人工智能技术的飞速发展，不断推动着文本到语音合成（Text-to-Speech，TTS）技术的边界。TTS 技术的持续优化与创新，为人们提供了丰富、便捷的语音交互体验，相关的研究成果在教育、娱乐以及多语言交流等多个领域都有着广泛的应用前景。传统的 TTS 系统仅仅使用来自录音室的高质量且干净的语音数据进 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博