刚刚，OpenAI开启语音智能体时代，API价格低至每分钟0.015美元

机器之心 · 公众号 · AI · 2025-03-21 08:56

主要观点总结

OpenAI发布了新一代音频模型，包括语音转文本和文本转语音模型。这些模型在准确性和可靠性方面达到了新的水平，尤其是在处理口音、嘈杂环境和不同语速的复杂场景上表现更优秀。新的API允许开发人员指导文本转语音模型以特定方式说话，为语音智能体开启新的定制化维度。此外，OpenAI还开放了一个网站供用户直接测试音频大模型的能力。

关键观点总结

关键观点1: OpenAI发布了新的音频模型，包括gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts等模型。

这些模型在语音转文本和文本转语音方面表现出色，尤其是在处理复杂场景时。它们通过提高语音/文本转录应用的可靠性，特别适用于客户呼叫中心、会议记录转录等用例。

关键观点2: 新的音频模型具有定制化的特点。

基于新的API，开发人员可以指示文本转语音模型以特定方式说话，从而实现各种定制应用程序。这些模型还可以更好地捕捉语音的细微差别，减少误认，提高转录可靠性。

关键观点3: OpenAI的音频模型集成了大量强化学习，将转录准确性推向了最先进的水平。

通过强化学习和使用多样化、高质量音频数据集进行的大量中期训练，这些模型实现了语音转文本技术的重大进步。此外，OpenAI还推出了可操纵性更好的新gpt-4o-mini-tts模型，开发人员可以指导模型如何说，从而为大量用例提供更加定制化的体验。

关键观点4: OpenAI的新音频模型价格保持业界平均水准。

与最贵的大模型API相比，这些语音API的价格受到了社区的欢迎。此外，这些模型基于GPT-4o和GPT-4o-mini架构，并在专门的以音频为中心的数据集上进行了广泛的预训练，对于优化模型性能至关重要。

文章预览

机器之心报道编辑：泽南现在，你可以指导 GPT-4o 的说话方式了。今天凌晨，OpenAI 突然开启了新产品发布直播，这次新发布的内容全是音频模型。据介绍，它们实现了新的 SOTA 水平，在准确性和可靠性方面优于现有解决方案——尤其是在涉及口音、嘈杂环境和不同语速的复杂场景中。这些改进提高了语音 / 文本转录应用的可靠性，新模型特别适合客户呼叫中心、会议记录转录等用例。基于新的 API，开发人员第一次可以指示文本转语音模型以特定方式说话，例如让 AI「像富有同情心的客户服务人员一样说话」，从而为语音智能体开启新的定制化维度，可以实现各种定制应用程序。 OpenAI 还开放了一个网站，让你可以直接测试音频大模型的能力： https://www.openai.fm/ OpenAI 于 2022 年推出了第一个音频模型，并一直致力于提高这些模型的智能性、准确性 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博