主要观点总结
本文主要介绍了智谱清言宣布全量上线的「情感语音通话」功能,以及背后的情感语音模型GLM-4-Voice的开源。此外,还介绍了智谱的AutoGLM技术,一句指令自动操作电脑、手机的能力。最后,文章讨论了智谱面向AGI的技术路线图,包括多模态、工具使用、内省能力等方面的规划。
关键观点总结
关键观点1: 「情感语音通话」功能上线
智谱清言宣布全量上线的「情感语音通话」功能,提供了真人一般的对话体验,具备响应和打断速度、情感感知共鸣、语音可控表达、多语言多方言等方面的突破。
关键观点2: GLM-4-Voice模型开源
智谱宣布情感语音模型GLM-4-Voice正式开源。该模型是一个端到端的语音模型,实现了音频的输入和输出的端到端建模,具备理解情感、有情绪表达、情感共鸣等功能。
关键观点3: AutoGLM技术前沿成果
智谱发布了AutoGLM,能够让AI像人类一样操作电脑和手机。此项技术基于大语言模型(GLM系列模型)、多模态模型和工具使用(CogAgent模型)等方面的探索,显著提升了AI在GUI操控上的性能。
关键观点4: 智谱面向AGI的技术路线图
智谱展现了其面向AGI的技术路线图,包括多模态、工具使用、内省能力等阶段的规划。在追求AGI终极目标的过程中,智谱展现出了一些不同于OpenAI的思考,如AI分级和工具使用能力的重视。
文章预览
机器之心原创 作者:杜伟、蛋酱 今年 5 月,OpenAI 首次展示了 GPT-4o 的语音功能,无论是对话的响应速度还是与真人声音的相似度,都颇为惊艳。特别是它允许用户随时打断,充分感知到用户的情绪并给予回应。 大家突然发现,原来 AI 语音通话还能这么玩? 但由于种种原因,用户们等了好久才等到 OpenAI 开放 ChatGPT 的高级语音功能,目前仅 Plus 和 Team 用户可体验,且这些用户每天也有使用时长限制。 不过现在,国内用户也有了同样丝滑的实时语音交互应用,重点是:免费开放,无需等待。 10 月 25 日,智谱清言宣布全量上线「情感语音通话」功能,任何用户都可以立即获得端到端情感语音体验。 对标 GPT-4o,智谱清言「情感语音通话」在响应和打断速度、情绪感知情感共鸣、语音可控表达、多语言多方言等方面实现了突破。简单来说,「情感语音
………………………………