豆包实时语音大模型上线即开放！情商智商双高

字节跳动技术团队 · 公众号 · · 2025-01-20 19:30

主要观点总结

豆包实时语音大模型今日正式推出，并在豆包APP全量开放。该模型实现了端到端语音对话，相比传统级联模式，在语音表现力、控制力、情绪承接方面表现惊艳。团队认为该模型的推出具有里程碑式意义，不仅贴合中国用户实际需求，且具备丰富的技术特性。本文重点介绍模型技术实现思路、特性与优势及评测结果。

关键观点总结

关键观点1: 模型推出与介绍

豆包实时语音大模型正式推出，全量开放于豆包APP。该模型实现了端到端的语音对话，具有突破性的技术特性。

关键观点2: 技术实现与特性

模型通过语音和语义联合建模，呈现出接近真人的语音表达水准。在语音指令控制的泛化理解和演绎生成方面，显著突破原有边界。具有丰富表现力和极大拓展潜力。

关键观点3: 智商与情商的表现

模型在智商和情商方面表现出色，具备情感理解和情感承接能力。能够捕捉并回应人类情感信息，实现高情商共情式对话。

关键观点4: 评测结果

模型在评测中表现出色，整体满意度高于GPT-4o。测试者反馈显示，模型在情绪理解和情感表达方面优势明显。

关键观点5: 未来展望

团队意识到模型仍存在不确定性，未来研究将聚焦于挖掘模型潜力，拓展能力边界，提升复杂场景下的适应性和表现力。

文章预览

豆包实时语音大模型于今日正式推出，并在豆包 APP 全量开放，将豆包 APP 升级至 7.2.0 版本即可体验。豆包实时语音大模型，是一款语音理解和生成一体化的模型，实现了端到端语音对话。相比传统级联模式，在语音表现力、控制力、情绪承接方面表现惊艳，并具备低时延、对话中可随时打断等特性。根据外部用户真实反馈，该模型整体满意度较 GPT-4o 有明显优势，特别是语音语气自然度和情绪饱满度远高于后者。团队认为，该模型的推出具备里程碑式意义，不仅贴合中国用户实际需求，且发布即上线，有能力直接服务亿万用户，而非停留于演示 Demo 层面。本文将重点介绍模型技术实现思路、特性与优势及评测结果。技术展示页： https://team.doubao.com/realtime_voice 今天，豆包 APP 上线全新端到端语音能力，面向所有用户全量开放！其技术能力如何 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博