专栏名称: 阿里语音AI
阿里巴巴达摩院语音实验室,基于语音识别、语音合成、自然语言理解等 AI 技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪 要、实时字幕等多种应用场景,支持私有化定制部署。
今天看啥  ›  专栏  ›  阿里语音AI

阿里通义音频生成大模型 FunAudioLLM 开源!

阿里语音AI  · 公众号  ·  · 2024-07-06 10:22
    

文章预览

01 写在前面 人类对自身的研究和模仿由来已久,在我国2000多年前的《列子·汤问》里就描述了有能工巧匠制作出会说话会舞动的类人机器人的故事。声音包含丰富的个体特征及情感情绪信息,对话作为人类最常使用亲切自然的交互模式,是连接人与智能世界至关重要的环节。 近日,阿里通义实验室发布并开源了语音大模型项目 FunAudioLLM ,旨在深化人类与大型语言模型(LLMs)之间的自然语音交互体验。这一框架的核心是两个创新模型: SenseVoice 和 CosyVoice 。 CosyVoice  致力于自然语音生成,支持多语言、音色和情感控制,在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。 多语言合成:采用了总共超15万小时的数据训练,支持中英日粤韩5种语言的合成,合成效果显著优于传统语音合成模型。 极速音色模拟:仅需要3 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览