专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
今天看啥  ›  专栏  ›  学术头条

AI用北京话念绕口令!清华、智谱团队打造GLM-4-Voice,更智能、懂情绪,已开源

学术头条  · 公众号  · 科技自媒体  · 2024-12-11 09:17
    

主要观点总结

智谱在CNCC2024大会上推出了多模态领域的最新成果——端到端情感语音模型GLM-4-Voice,能够实现人与机器的自然聊天状态交流。该模型可直接理解和生成中英文语音,在情绪感知、情感共鸣、情绪表达、多语言、多方言等方面有突破,且延迟更低。来自清华大学和智谱的研究团队发布了GLM-4-Voice的研究论文,论文详细论述了这一端到端语音模型的核心技术与评估结果。GLM-4-Voice由三部分组成:GLM-4-Voice-Tokenizer、GLM-4-Voice-Decoder和GLM-4-Voice-9B。模型的预训练包括大规模语音-文本联合预训练和监督微调阶段。评估结果显示,GLM-4-Voice在语音语言建模、语音问答等任务上表现卓越,性能超过现有基线模型,并已经开源,有2.4k stars。

关键观点总结

关键观点1: GLM-4-Voice模型的推出

智谱在CNCC2024大会上发布了多模态领域的最新成果——端到端情感语音模型GLM-4-Voice,能实现人与机器的自然聊天状态交流。

关键观点2: GLM-4-Voice模型的功能与特点

GLM-4-Voice能直接理解和生成中英文语音,在情绪感知、情感共鸣、情绪表达、多语言、多方言等方面有突破,延迟更低。

关键观点3: GLM-4-Voice模型的研究与发布

来自清华大学和智谱的研究团队发布了GLM-4-Voice的研究论文,论文详细论述了这一端到端语音模型的核心技术与评估结果。

关键观点4: GLM-4-Voice模型的组成部分

GLM-4-Voice由三部分组成:GLM-4-Voice-Tokenizer、GLM-4-Voice-Decoder和GLM-4-Voice-9B。

关键观点5: GLM-4-Voice模型的预训练与评估

GLM-4-Voice的预训练包括大规模语音-文本联合预训练和监督微调阶段。评估结果显示,其在语音语言建模、语音问答等任务上表现卓越,性能超过现有基线模型。


文章预览

今年 10 月,智谱在 CNCC2024 大会上推出了他们在多模态领域的最新成果——端到端情感语音模型 GLM-4-Voice,让人和机器的交流能够以自然聊天的状态进行。 以下为他们在官方 GitHub 上给出的 demo。 先用北京话念一句绕口令: 加速!加速! 再加速! 据介绍,GLM-4-Voice 能够直接理解和生成中英文语音,进行实时语音对话,在情绪感知、情感共鸣、情绪表达、多语言、多方言等方面实现突破,且延时更低,可随时打断。 日前, 来自清华大学和智谱的研究团队发布了 GLM-4-Voice 的研究论文,对这一端到端语音模型的核心技术与评估结果进行了详细论述 。 论文链接: https://arxiv.org/abs/2412.02612 GitHub 地址: https://github.com/THUDM/GLM-4-Voice GLM-4-Voice 是如何练成的? 与传统的 ASR + LLM + TTS 的级联方案相比,端到端模型以音频 token 的形式直接建模语音,在一个模型里 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览