OpenAI 发布新型音频模型，听起来比以往任何时候都更像人类

AI音频时代 · 公众号 · · 2025-03-24 17:15

文章预览

OpenAI发布了一套新的音频模型，旨在为更自然、响应更快的语音代理提供支持。ChatGPT的开发者表示，这是将人工智能从基于文本的交互带入更直观的口语对话的重要一步。在经历了数月专注于文本代理能力的发布（如Operator和Agents SDK）之后，该公司将赌注押在了语音技术上。正如OpenAI所定位的那样，真正有用的人工智能需要超越文本进行交流。 “ 为了让代理模型真正有用，人们需要能够与代理模型进行更深层次、更直观的互动，而不仅仅是文本——使用自然口语进行有效沟通，” 该公司在公告中解释道。此次发布的核心是两个新的语音转文本模型：GPT-4o-transcribe 和 GPT-4o-mini-transcribe。两者都旨在将口语转换为文本，其准确性显著高于OpenAI之前的Whisper模型，在多种语言中实现了更低的词错误率（WER）。这些改进在理解不同口音、过滤背景噪音和 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博