专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

o3狂烧3万美金解一题,反被AGI榜单除名!试错1024次不如10岁小孩哥4分钟

新智元  · 公众号  · AI  · 2025-04-03 15:16
    

主要观点总结

OpenAI的o3推理模型成本从3000美元飙升到3万美元,增加了10倍。在ARC-AGI测试中,o3-high通过暴力试错生成大量文本解题,但因其高成本被排除在排行榜之外。ARC-AGI测试已成为AI发展的重要基准,而o3模型的表现引发质疑。同时,顶尖推理模型在ARC-AGI-2测试中表现不佳,显示出推理模型的局限性。尽管有这些挑战,但通用人工智能(AGI)的潜力仍被看好,可能在未来几年内实现,对社会产生积极影响。

关键观点总结

关键观点1: OpenAI的o3推理成本飙升10倍。

最初估计o3-low和o3-high的推理成本分别为20美元和3000美元,但现在它们分别增加到200美元和3万美元。

关键观点2: o3-high依靠暴力试错生成大量文本解题。

o3-high对每个任务尝试1024次,每次生成137页文本,总计4300万字,相当于为每个任务写一本《大英百科全书》。

关键观点3: 顶尖推理模型在ARC-AGI-2测试中表现不佳。

像GPT-4.5、Claude 3.7 Sonnet、Gemini 2等顶尖基础模型在ARC-AGI-2测试中得分为零。这显示出推理模型在解决需要深度思考的任务时存在局限性。

关键观点4: AGI的潜力仍被看好。

尽管面临挑战,但通用人工智能(AGI)的实现仍被认为是可能的,并可能在未来几年内到来。AGI的发展将对社会产生积极影响,包括在医疗、教育、信息处理和知识获取等方面的革新。


文章预览

   新智元报道   编辑:编辑部 YNH 【新智元导读】 OpenAI o3推理成本从3000美元飙至3万美元,暴增10倍。o3-high靠暴力试错生成4300万字解题,却被ARC-AGI「除名」。 短短几个月,最新评估显示,o3推理成本比预初估计暴涨10倍! 在ARC-AGI最新测试上,AI单次任务曾用3000美元,而如今已飙升至30000美元。 来自牛津大学的高级研究员Toby Ord指出,o3-high看似性能强大,实则更多地依赖于海量计算,而非真正的推理突破。 o3-high在对每个任务尝试1024次,每次生成137页文本,总计4300万字——相当于为每个任务写了一本《大英百科全书》(4400万字)。 结果就是,完成每个任务成本高达3万美金。而这些简单的谜题,一个10岁的孩子可能只需4分钟就能解决。 成本飙升直接导致了o3-high超出ARC-AGI每个任务1万美元限制,直接被排除在排行榜之外 甚至,o3-high的算力消耗竟 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览