专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

AI用北京话念绕口令！清华、智谱团队打造GLM-4-Voice，更智能、懂情绪，已开源

学术头条 · 公众号 · 科技自媒体 · 2024-12-11 09:17

主要观点总结

智谱在CNCC2024大会上推出了多模态领域的最新成果——端到端情感语音模型GLM-4-Voice，能够实现人与机器的自然聊天状态交流。该模型可直接理解和生成中英文语音，在情绪感知、情感共鸣、情绪表达、多语言、多方言等方面有突破，且延迟更低。来自清华大学和智谱的研究团队发布了GLM-4-Voice的研究论文，论文详细论述了这一端到端语音模型的核心技术与评估结果。GLM-4-Voice由三部分组成：GLM-4-Voice-Tokenizer、GLM-4-Voice-Decoder和GLM-4-Voice-9B。模型的预训练包括大规模语音-文本联合预训练和监督微调阶段。评估结果显示，GLM-4-Voice在语音语言建模、语音问答等任务上表现卓越，性能超过现有基线模型，并已经开源，有2.4k stars。

关键观点总结

关键观点1: GLM-4-Voice模型的推出

智谱在CNCC2024大会上发布了多模态领域的最新成果——端到端情感语音模型GLM-4-Voice，能实现人与机器的自然聊天状态交流。

关键观点2: GLM-4-Voice模型的功能与特点

GLM-4-Voice能直接理解和生成中英文语音，在情绪感知、情感共鸣、情绪表达、多语言、多方言等方面有突破，延迟更低。

关键观点3: GLM-4-Voice模型的研究与发布

来自清华大学和智谱的研究团队发布了GLM-4-Voice的研究论文，论文详细论述了这一端到端语音模型的核心技术与评估结果。

关键观点4: GLM-4-Voice模型的组成部分

GLM-4-Voice由三部分组成：GLM-4-Voice-Tokenizer、GLM-4-Voice-Decoder和GLM-4-Voice-9B。

关键观点5: GLM-4-Voice模型的预训练与评估

GLM-4-Voice的预训练包括大规模语音-文本联合预训练和监督微调阶段。评估结果显示，其在语音语言建模、语音问答等任务上表现卓越，性能超过现有基线模型。

文章预览

今年 10 月，智谱在 CNCC2024 大会上推出了他们在多模态领域的最新成果——端到端情感语音模型 GLM-4-Voice，让人和机器的交流能够以自然聊天的状态进行。以下为他们在官方 GitHub 上给出的 demo。先用北京话念一句绕口令：加速！加速！再加速！据介绍，GLM-4-Voice 能够直接理解和生成中英文语音，进行实时语音对话，在情绪感知、情感共鸣、情绪表达、多语言、多方言等方面实现突破，且延时更低，可随时打断。日前，来自清华大学和智谱的研究团队发布了 GLM-4-Voice 的研究论文，对这一端到端语音模型的核心技术与评估结果进行了详细论述。论文链接： https://arxiv.org/abs/2412.02612 GitHub 地址： https://github.com/THUDM/GLM-4-Voice GLM-4-Voice 是如何练成的？与传统的 ASR + LLM + TTS 的级联方案相比，端到端模型以音频 token 的形式直接建模语音，在一个模型里 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博