专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因

量子位  · 公众号  · AI  · 2025-04-21 12:13
    

文章预览

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI新模型发布后,大家体感都 幻觉更多 了。 甚至有人测试后发出预警:使用它辅助编程会很危险。 具体来说,它经常捏造从未运行过的代码返回结果,在被质问时 找理由狡辩 , 甚至还会说是用户的错 。 当大家带着疑问仔细阅读System Card,发现OpenAI官方也承认了这个问题,与o1相比 o3幻觉率是两倍,o4-mini更是达到3倍 。 并且OpenAI只是说“需要更多研究来了解原因”,翻译一下就是暂时给不出合理解释。 在第三方幻觉测试中,也出现让人惊讶的结果: 从GPT-3.5一直到o3-mini,都遵循更新更强大的模型幻觉更少的规律。 但从最新一批深度思考模型的表现来看,推理能力更强的模型,幻觉率也变高了。 而且不只OpenAI一家出现这个问题,谷歌、xAI也同样,Grok-3的幻觉比Grok-2严重,Gemini-2.0-Flash-Thinking的幻觉问题 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览