文章预览
🍹 Insight Daily 🪺 Aitrainee | 公众号:AI进修生 Hi,这里是Aitrainee, 欢迎阅读本期新文 章。 就在刚刚,OpenAI 又出新货了。 三个音频模型:gpt-4o-mini-tts(文字转语音),gpt-4o-transcribe 和 gpt-4o-mini-transcribe(语音转文字)。 新的 SOTA Speech2Text 模型(明显优于 Whisper 3),而新的文本转语音模型,允许提示个性和情感。 在 FLEURS 测试里,两个 transcribe 模型的错误率比 Whisper 低多了。 图里比的就是 "词错误率" (WER),WER 越低,模型转录就越准确,性能就越好。看柱状图,颜色深的柱子是 OpenAI 新模型,浅色的是其他模型,柱子越矮越好。 上:与自己模型对比;下:与市面其他模型对比 结果很明显,无论是和 Whisper v2/v3 比,还是和 Gemini、scribe-v1、nova-2 & nova-3 这些模型比,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 的 WER 都更低,这意味着它们在转录准确率上,
………………………………