专栏名称: 魔搭ModelScope社区

阿里巴巴达摩院模型开源社区ModelScope官方账号

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

杭州本地宝 · 年薪可达30万/有编制！杭州一大波优质岗位招聘中！ · 12 小时前

天津市文化和旅游局 · 央媒看天津文旅（2025.2.14-2.20） · 15 小时前

湛江日报 · 起猛了！一夜之间，湛江→花海🤩 · 昨天

三门峡政务 · 黄河湿地鸟类“天堂” · 昨天

广州市文化广电旅游局 · 藏不住了！广州也有自己的「童话大草原」！ · 2 天前

今天看啥 › 专栏 › 魔搭ModelScope社区

GLM-4-Voice，智谱开源版“Her”来了！

魔搭ModelScope社区 · 公众号 · · 2024-10-25 22:27

文章预览

今天，智谱 AI 推出并开源端到端语音模型 GLM-4-Voice！ GLM-4-Voice 能够直接理解和生成中英文语音，进行实时语音对话，并且能够遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。模型结构 GLM-4-Voice 由三个部分组成： GLM-4-Voice-Tokenizer: 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练，将连续的语音输入转化为离散的 token。每秒音频平均只需要用 12.5 个离散 token 表示。 GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器，将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个语音 token 即可开始生成，降低端到端对话延迟。 GLM-4-Voice-9B: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐，从而能够理解和生成离散化的语音 token。预训练方面，为了攻克模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

杭州本地宝 · 年薪可达30万/有编制！杭州一大波优质岗位招聘中！

12 小时前

天津市文化和旅游局 · 央媒看天津文旅（2025.2.14-2.20）

15 小时前

湛江日报 · 起猛了！一夜之间，湛江→花海🤩

昨天

湛江日报 · 起猛了！一夜之间，湛江→花海🤩

昨天

三门峡政务 · 黄河湿地鸟类“天堂”

昨天

广州市文化广电旅游局 · 藏不住了！广州也有自己的「童话大草原」！

2 天前

iBrandi品创 · 受到顾客端压力怎么办？茶颜悦色为员工设立“委屈金”

8 月前

食业家 · 维他奶，被新加坡首富家族看中

4 月前