专栏名称: 清熙

清晰、客观、理性探讨大模型（LLM）、人工智能（AI）、大数据（Big Data）、物联网（IoT）、云计算（Cloud）、供应链数字化等热点科技的原理、架构、实现与应用。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

OpenAI 的 o3 推理还是炼金术吗？如何激发推理的Scaling Law ?

清熙 · 公众号 · · 2024-12-25 20:00

文章预览

O penAI 的 o3 模型在 ARC-AGI 基准测试中得分为 85%，远高于之前AI 最佳得分 55%，与人类平均得分持平。对此，业界有兴奋，也有疑问。 ARC-AGI 基准测试使用上图中小方格问题来测试对样本的有效适应，被试需要找出将左侧方格转换为右侧方格的模式。每个问题都提供了三个示例，随后被试需要找出从三个示例“推广”到第四个示例的规则，看起来很类似智商测试。成功的关键是找到示例中的“ 弱规则 ”，以便推广到第四个问题。目前尚不清楚OpenAI 如何找到的，但测试本身可以确保无法提前刷到题，类似围棋每盘都不同。设计ARC-AGI基准测试的法国 AI 研究员 Francois Chollet 认为，o3 可能会搜索描述解决任务步骤的不同“思维链”，然后根据一些松散定义的规则或 “ 启发式 ” 来选择 “最佳”。这与谷歌的 AlphaGo 搜索不同的落子顺序以击败世界 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博