专栏名称: 清熙
清晰、客观、理性探讨大模型(LLM)、人工智能(AI)、大数据(Big Data)、物联网(IoT)、云计算(Cloud)、供应链数字化等热点科技的原理、架构、实现与应用。
今天看啥  ›  专栏  ›  清熙

OpenAI 的 o3 推理还是炼金术吗?如何激发推理的Scaling Law ?

清熙  · 公众号  ·  · 2024-12-25 20:00
    

文章预览

O penAI 的 o3 模型在 ARC-AGI 基准测试中得分为 85%,远高于之前AI 最佳得分 55%,与人类平均得分持平。对此,业界有兴奋,也有疑问。 ARC-AGI 基准测试使用上图中小方格问题来 测试对样本的有效适应 ,被试需要找出将左侧方格转换为右侧方格的模式。 每个问题都提供了三个示例,随后被试需要找出 从三个示例“推广”到第四个 示例的规则,看起来很类似智商测试。 成功的关键是找到示例中的“ 弱规则 ”,以便推广到第四个问题。目前尚不清楚OpenAI 如何找到的,但测试本身可以确保无法提前刷到题,类似围棋每盘都不同。 设计ARC-AGI基准测试的法国 AI 研究员 Francois Chollet 认为,o3 可能会 搜索 描述解决任务步骤的不同“思维链”,然后根据一些松散定义的规则或 “ 启发式 ” 来选择 “最佳”。 这与谷歌的 AlphaGo 搜索不同的落子顺序以击败世界 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览