阿里音频生成大模型一次发俩还开源！50种语言快速理解+5种语言语音生成，带情感的那种

量子位 · 公众号 · AI · 2024-07-05 17:20

文章预览

FunAudioLLM团队投稿量子位 | 公众号 QbitAI OpenAI迟迟不上线GPT-4o语音助手，其它音频生成大模型成果倒是一波接着一波发布，关键还是开源的。刚刚，阿里通义实验室也出手了—— 最新发布开源语音大模型项目 FunAudioLLM ，而且一次包含两个模型：SenseVoice和CosyVoice 。 SenseVoice专注高精度多语言语音识别、情感辨识和音频事件检测，支持超过50种语言识别，效果优于Whisper模型，中文与粤语提升50%以上。且情感识别能力强，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件检测，多方面测试拿下SOTA。 CosyVoice则专注自然语音生成，支持多语言、音色和情感控制，支持中英日粤韩5种语言的生成，效果显著优于传统语音生成模型。仅需要3~10s的原始音频，CosyVoice即可生成模拟音色，甚至包括韵律、情感等细节，包括跨语种语音生成。而 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【Arnis：将现实世界地点以高细节度生成至Minecraft -20250101144858

昨天

爱可可-爱生活 · 张量到底是什么？这个看似简单的问题困扰着许多人。它就像一个多面手-20241231074627

2 天前

爱可可-爱生活 · [CL] Next Token Prediction Towar-20241231054329

2 天前

宝玉xp · 回复@银湖茶亭:Claude、v0.dev、bolt.new、C-20241231011105

2 天前

爱可可-爱生活 · “智同道合，人机共生”——未来的思维工具，不应只是冰冷的技术工具-20241230102205

3 天前

财经早餐 · 处暑：四时俱可喜，最好新秋时

4 月前

范阳 · 丹尼尔·格罗斯的20亿美金和 SSI：创造另一个萨姆·奥特曼和 OpenAI

2 月前