文章预览
阿里发布超强语音处理模型FunAudioLLM,语音方向卷起来了,成熟度非常高, FunAudioLLM是 一个旨在增强人与大语言模型 (LLMs) 之间自然语音交互的框架。其核心包括两个创新模型: SenseVoice 和 CosyVoice SenseVoice 专注于高精度的多语言语音识别、情感识别和音频事件检测,具备极低的延迟,支持超过50种语言 SenseVoice 是一种语音基础模型,具有多种语音理解功能,包括 ASR、LID、SER 和 AED。SenseVoice-Small 是一种仅编码器的语音基础模型,用于快速语音理解;SenseVoice-Large 是一种编码器-解码器语音基础模型,用于更准确的语音理解,支持更多的语言 CosyVoice 则擅长自然语音生成,具备多语言、音色和情感控制能力,能够实现多语言语音生成、零样本语音生成、跨语言语音克隆和指令跟随功能 CosyVoice 包含一个自回归变换器,用于为输入文本生成相应的语音标记
………………………………