专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

o3狂烧3万美金解一题，反被AGI榜单除名！试错1024次不如10岁小孩哥4分钟

新智元 · 公众号 · AI · 2025-04-03 15:16

主要观点总结

OpenAI的o3推理模型成本从3000美元飙升到3万美元，增加了10倍。在ARC-AGI测试中，o3-high通过暴力试错生成大量文本解题，但因其高成本被排除在排行榜之外。ARC-AGI测试已成为AI发展的重要基准，而o3模型的表现引发质疑。同时，顶尖推理模型在ARC-AGI-2测试中表现不佳，显示出推理模型的局限性。尽管有这些挑战，但通用人工智能（AGI）的潜力仍被看好，可能在未来几年内实现，对社会产生积极影响。

关键观点总结

关键观点1: OpenAI的o3推理成本飙升10倍。

最初估计o3-low和o3-high的推理成本分别为20美元和3000美元，但现在它们分别增加到200美元和3万美元。

关键观点2: o3-high依靠暴力试错生成大量文本解题。

o3-high对每个任务尝试1024次，每次生成137页文本，总计4300万字，相当于为每个任务写一本《大英百科全书》。

关键观点3: 顶尖推理模型在ARC-AGI-2测试中表现不佳。

像GPT-4.5、Claude 3.7 Sonnet、Gemini 2等顶尖基础模型在ARC-AGI-2测试中得分为零。这显示出推理模型在解决需要深度思考的任务时存在局限性。

关键观点4: AGI的潜力仍被看好。

尽管面临挑战，但通用人工智能（AGI）的实现仍被认为是可能的，并可能在未来几年内到来。AGI的发展将对社会产生积极影响，包括在医疗、教育、信息处理和知识获取等方面的革新。

文章预览

新智元报道编辑：编辑部 YNH 【新智元导读】 OpenAI o3推理成本从3000美元飙至3万美元，暴增10倍。o3-high靠暴力试错生成4300万字解题，却被ARC-AGI「除名」。短短几个月，最新评估显示，o3推理成本比预初估计暴涨10倍！在ARC-AGI最新测试上，AI单次任务曾用3000美元，而如今已飙升至30000美元。来自牛津大学的高级研究员Toby Ord指出，o3-high看似性能强大，实则更多地依赖于海量计算，而非真正的推理突破。 o3-high在对每个任务尝试1024次，每次生成137页文本，总计4300万字——相当于为每个任务写了一本《大英百科全书》（4400万字）。结果就是，完成每个任务成本高达3万美金。而这些简单的谜题，一个10岁的孩子可能只需4分钟就能解决。成本飙升直接导致了o3-high超出ARC-AGI每个任务1万美元限制，直接被排除在排行榜之外甚至，o3-high的算力消耗竟 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博