注册登录

专栏名称: arXiv每日学术速递

跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

人民日报评论 · 黄会林教授：传播中国文化的90后（上）|奋力 ... · 21 小时前

后沙月光 · 分享图片 · 4 天前

VC/PE/MA金融圈 · 网红杯鼻祖宣布破产了 · 5 天前

题材挖掘君 · 大金融，最新核心标的公司梳理（精选公司名单跟踪好） · 6 天前

题材挖掘君 · 大金融，最新核心标的公司梳理（精选公司名单跟踪好） · 6 天前

今天看啥 › 专栏 › arXiv每日学术速递

VALL-E 2，大幅提升语音大模型的稳健性与自然度

arXiv每日学术速递 · 公众号 · · 2024-09-12 12:43

文章预览

（本文阅读时间：9分钟）编者按：文本到语音合成（Text-to-Speech，TTS）是一种将书面文字转化为自然语音的技术，在提高无障碍性、增强跨语言交流等方面发挥着重要作用。微软亚洲研究院此前推出了第一个离散编码的语音大模型 VALL-E，并在此基础上通过重复感知采样和分组编码建模技术将其升级为 VALL-E 2 版本。新版本突破了语音稳健性、自然度和说话人相似度方面的界限，让零样本 TTS 性能在 LibriSpeech 和 VCTK 数据集上与人类水平相近。近年来人工智能技术的飞速发展，不断推动着文本到语音合成（Text-to-Speech，TTS）技术的边界。TTS 技术的持续优化与创新，为人们提供了丰富、便捷的语音交互体验，相关的研究成果在教育、娱乐以及多语言交流等多个领域都有着广泛的应用前景。传统的 TTS 系统仅仅使用来自录音室的高质量且干净的语音数据进 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

人民日报评论 · 黄会林教授：传播中国文化的90后（上）|奋力跑好历史的接力棒

21 小时前

后沙月光 · 分享图片

4 天前

VC/PE/MA金融圈 · 网红杯鼻祖宣布破产了

5 天前

题材挖掘君 · 大金融，最新核心标的公司梳理（精选公司名单跟踪好）

6 天前

题材挖掘君 · 大金融，最新核心标的公司梳理（精选公司名单跟踪好）

6 天前

雪球 · 台湾证交所加权股价指数收涨2.9%，报21469点。 -20240809134127

1 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号