今天看啥  ›  专栏  ›  魔搭ModelScope社区

GLM-4-Voice,智谱开源版“Her”来了!

魔搭ModelScope社区  · 公众号  ·  · 2024-10-25 22:27
    

文章预览

今天, 智谱 AI 推出并开源端到端语音模型  GLM-4-Voice! GLM-4-Voice 能够直接理解和生成中英文语音,进行实时语音对话,并且能够遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。 模型结构   GLM-4-Voice 由三个部分组成: GLM-4-Voice-Tokenizer: 通过在  Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练,将连续的语音输入转化为离散的 token。每秒音频平均只需要用 12.5 个离散 token 表示。 GLM-4-Voice-Decoder: 基于  CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器,将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个语音 token 即可开始生成,降低端到端对话延迟。 GLM-4-Voice-9B: 在  GLM-4-9B 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音 token。 预训练方面,为了攻克模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览