专栏名称: 阿里语音AI
阿里巴巴达摩院语音实验室,基于语音识别、语音合成、自然语言理解等 AI 技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪 要、实时字幕等多种应用场景,支持私有化定制部署。
今天看啥  ›  专栏  ›  阿里语音AI

开源更新|语音生成大模型CosyVoice升级2.0版本

阿里语音AI  · 公众号  ·  · 2024-12-16 10:00
    

文章预览

CosyVoice 是阿里巴巴通义实验室语音团队于今年7月份开源的语音生成大模型,依托大模型技术,实现自然流畅的语音生成体验。与传统语音生成技术相比,CosyVoice具有韵律自然、音色逼真等特点。自开源以来,CosyVoice凭借高品质的多语言语音生成、零样本语音生成、跨语言语音生成、富文本和自然语言的细粒度控制能力获得了广大社区开发者们的喜爱和支持。 如今, CosyVoice迎来全面升级 ,我们将发布CosyVoice2.0版本,提供更准、更稳、更快、 更好的语音生成能力。 超低延迟: CosyVoice 2.0提出了离线和流式一体化建模的语音生成大模型技术,支持双向流式语音合成,在基本不损失效果的情况下首包合成 延迟可以达到150ms 。 高准确度: CosyVoice 2.0合成音频的发音错误相比于CosyVoice 1.0相对下降30%~50%,在Seed-TTS测试集的hard测试集上取得 当前最低的字错 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览