文章预览
继语言模型、图像理解、视频理解、图像生成、视频生成等模型之后,今天,智谱的多模态大模型家族再次加入新成员—— GLM-4-Voice(端到端语音模型) 。 这一成果使得大模型具备了完整的感官系统,实现了机器与人交互的自然与流畅。 GLM-4-Voice 模型具备直接理解和生成中英文语音的能力,能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征,且具有更低的延时,支持实时打断,进一步提升交互体验。 具体来说,GLM-4-Voice具备: 情感表达和情感共鸣: 模拟不同的情感和语调,如高兴、悲伤、生气、害怕等情绪,用合适的情绪语气进行回复。传统 TTS 通常在情感表达上比较僵硬,声音缺少起伏和细腻的变化。 调节语速 :在同一轮对话中,可以要求 TA 快点说 or 慢点说。 随时打断,灵活输入指令: 根据实时的用户指令,调整语音输出
………………………………