o3/o4-mini幻觉暴增2-3倍！OpenAI官方承认暂无法解释原因

量子位 · 公众号 · AI · 2025-04-21 12:13

文章预览

梦晨发自凹非寺量子位 | 公众号 QbitAI OpenAI新模型发布后，大家体感都幻觉更多了。甚至有人测试后发出预警：使用它辅助编程会很危险。具体来说，它经常捏造从未运行过的代码返回结果，在被质问时找理由狡辩，甚至还会说是用户的错。当大家带着疑问仔细阅读System Card，发现OpenAI官方也承认了这个问题，与o1相比 o3幻觉率是两倍，o4-mini更是达到3倍。并且OpenAI只是说“需要更多研究来了解原因”，翻译一下就是暂时给不出合理解释。在第三方幻觉测试中，也出现让人惊讶的结果：从GPT-3.5一直到o3-mini，都遵循更新更强大的模型幻觉更少的规律。但从最新一批深度思考模型的表现来看，推理能力更强的模型，幻觉率也变高了。而且不只OpenAI一家出现这个问题，谷歌、xAI也同样，Grok-3的幻觉比Grok-2严重，Gemini-2.0-Flash-Thinking的幻觉问题 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

量子位 · AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号

23 小时前

机器之心 · DeepSeek-R1今天一次「小更新」，颠覆了大模型格局，网友：尽快放R2

昨天

宝玉xp · 字节的 AI 代码编辑器 Trae 国际版现在支持付费了，也就是-20250528001005

2 天前

人工智能那点事 · 镜子能跑步，桌子能骑车！你还有什么理由不健身

2 天前

量子位 · 百度心响上线iOS版，多智能体协作应用终于卷对地方了

3 天前

OK数码2016 · 冲1000台，联想X1二合一平板电脑再到货

11 月前

汽车之家 · 家族旗舰，气场全开！2024广州车展：腾势N9，大佬座驾登场！

6 月前

1435之间 · 宝山区启动中低运量线网规划研究

4 月前