专栏名称: 阿里语音AI
阿里巴巴达摩院语音实验室,基于语音识别、语音合成、自然语言理解等 AI 技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪 要、实时字幕等多种应用场景,支持私有化定制部署。
今天看啥  ›  专栏  ›  阿里语音AI

云栖发布:从级联到端到端语音翻译大模型Gummy

阿里语音AI  · 公众号  ·  · 2024-09-19 19:11
    

文章预览

在2024年云栖大会上, 通义实验室语音团队和自然语言处理团队 联盟推出了 端到端语音翻译大模型Gummy ,可实时流式生成语音识别与翻译结果。Gummy目前支持中文、英语、粤语、日语、韩语、法语、德语、俄罗斯语、意大利语、西班牙语等多达十余种语言的语音输入,并将其实时翻译成目标语言。 相较于传统的“ASR+翻译”模型的级联系统,Gummy创新性地使用了端到端语音翻译大模型系统,使其可以在无源语言文本信息中间态的情况下,将语音直接翻译为目标端语种。通过这一技术,Gummy将翻译 延迟降低到0.5s 以内,大幅小于人类专家的同传延时。而在识别与翻译质量上,其在CommonVoice、CoVost2等多个业界公认开源测试集上,取得了SOTA结果;并在内部工业测试集上,翻译质量显著优于同规模级联翻译系统。 (语音识别效果对比) (语音翻译质量效果 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览