文章预览
摘要 摘要 豆包实时语音大模型于1月20日正式推出,并在豆包APP中全面开放。该模型实现了端到端的语音对话,主要面向中文场景,具备低时延、可随时打断等特性,且在语音表现力、控制力和情绪承接方面表现优异。相比传统级联模式和GPT-4o,豆包模型在语音语气自然度和情绪饱满度上具有明显优势,用户满意度更高。技术方面,豆包实时语音大模型通过预训练、Scaling和强化学习等技术,实现了语音与文本的深度融合,具备多模态输入和输出能力。未来,随着视频、语音、图像等功能的加入,模型训练和推理所需的算力将进一步提升,云端AI算力需求也将持续增长。该模型的推出有望推动AI手机、AI眼镜等端侧产品的发展,并加速AI助手、情感陪护等应用的智能化进程。 豆包实时语音大模型的推出有望在春节期间推动豆包APP的用户增长,并进一步
………………………………