专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
目录
相关文章推荐
黄建同学  ·  可口可乐的 AI ... ·  5 天前  
宝玉xp  ·  以后有人说你的 App ... ·  5 天前  
今天看啥  ›  专栏  ›  AI前线

阿里开源语音处理模型 FunAudioLLM :50 种语言无缝翻译,还能识别语音情绪

AI前线  · 公众号  · AI  · 2024-07-10 13:30

文章预览

作者 | 赵明华 阿里巴巴通义实验室近日发布并开源了 FunAudioLLM,这是一个旨在增强人与大型语言模型(LLMs)之间自然语音交互的框架,代表了语音处理领域的最新进展。 这一框架的核心是两个创新模型:SenseVoice 和 CosyVoice。这两个模型不仅在多语言语音识别、情感识别、音频事件检测和自然语音生成方面表现出色,还展示了极高的成熟度和广泛的应用潜力。 SenseVoice:精准多语言识别与情感辨识 ● 多语言识别:采用超过 40 万小时的数据训练,支持超过 50 种语言,在中文和粤语上的识别准确度提升超过 50%。 ● 情感辨识:具备出色的情感识别能力,在测试数据上达到或超过当前最佳情感识别模型的效果。 ● 声音事件检测:能够识别多种情绪和交互事件,如音乐、掌声、笑声、哭声等。 ● 模型架构:包括自动语音识别(ASR)、语言识别(LID ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览