文章预览
前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、模型评估、大语言模型的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. FunAudioLLM:语音理解与生成基础模型 标题: FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs 机构: 阿里巴巴集团 关键词: 语音理解、生成基础模型、大型语言模型、自然交互 作者: Tongyi SpeechTeam 分析: 本报告介绍了FunAudioLLM,一种旨在增强人类与大型语言模型(LLMs)之间自然语音交互的模型家族。其核心包括两个创新模型:SenseVoice,负责多语种语音识别、情感识别和音频事件检测;CosyVoice,有助于以控制多种语言、音色、说话风格和说话者身份进行自然语音生成。SenseVoice-Small为5种语言提供极低延迟的自动语音识别,而SenseVoice-Large支持超过50种语言的高精确度
………………………………