专栏名称: AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
今天看啥  ›  专栏  ›  AI进修生

刚刚,OpenAI又发新货!3个新模型+1个新网站,语音识别比Whisper更强!

AI进修生  · 公众号  ·  · 2025-03-21 05:49
    

文章预览

🍹  Insight Daily  🪺 Aitrainee | 公众号:AI进修生 Hi,这里是Aitrainee, 欢迎阅读本期新文 章。 就在刚刚,OpenAI 又出新货了。 三个音频模型:gpt-4o-mini-tts(文字转语音),gpt-4o-transcribe 和 gpt-4o-mini-transcribe(语音转文字)。 新的 SOTA Speech2Text 模型(明显优于 Whisper 3),而新的文本转语音模型,允许提示个性和情感。 在 FLEURS 测试里,两个  transcribe 模型的错误率比 Whisper 低多了。 图里比的就是 "词错误率" (WER),WER 越低,模型转录就越准确,性能就越好。看柱状图,颜色深的柱子是 OpenAI 新模型,浅色的是其他模型,柱子越矮越好。 上:与自己模型对比;下:与市面其他模型对比 结果很明显,无论是和 Whisper v2/v3 比,还是和 Gemini、scribe-v1、nova-2 & nova-3 这些模型比,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 的 WER 都更低,这意味着它们在转录准确率上, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览