专栏名称: 阿里语音AI

阿里巴巴达摩院语音实验室，基于语音识别、语音合成、自然语言理解等 AI 技术，实现“能听、会说、懂你”式的智能人机交互体验，适用于智能客服、质检、会议纪要、实时字幕等多种应用场景，支持私有化定制部署。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

阿里通义音频生成大模型 FunAudioLLM 开源！

阿里语音AI · 公众号 · · 2024-07-06 10:22

文章预览

01 写在前面人类对自身的研究和模仿由来已久，在我国2000多年前的《列子·汤问》里就描述了有能工巧匠制作出会说话会舞动的类人机器人的故事。声音包含丰富的个体特征及情感情绪信息，对话作为人类最常使用亲切自然的交互模式，是连接人与智能世界至关重要的环节。近日，阿里通义实验室发布并开源了语音大模型项目 FunAudioLLM ，旨在深化人类与大型语言模型（LLMs）之间的自然语音交互体验。这一框架的核心是两个创新模型： SenseVoice 和 CosyVoice 。 CosyVoice 致力于自然语音生成，支持多语言、音色和情感控制，在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。多语言合成：采用了总共超15万小时的数据训练，支持中英日粤韩5种语言的合成，合成效果显著优于传统语音合成模型。极速音色模拟：仅需要3 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博