文章预览
https://arcprize.org/blog/openai-o1-results-arc-prize ARC-AGI-Pub 上的 OpenAI o1 结果 OpenAI 新 o1 模型的 ARC 奖测试和说明 在过去的 24 小时内,我们获得了 OpenAI 新发布的 o1-preview 和 o1-mini 模型,这些模型经过专门训练来模拟推理。在给出最终答案之前,这些模型有额外的时间来生成和完善推理标记。 数百人询问 o1 在 ARC 奖上的表现如何。因此,我们使用与评估 Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 相同的基线测试工具对其进行测试。结果如下: o1 是 AGI 的新范式吗?规模会扩大吗?与 ARC-AGI 上的中等得分相比,o1 在 IOI、AIME 和许多其他令人印象深刻的基准测试得分上的表现之间存在巨大差异,如何解释? 有很多话要谈。 思想链 o1 通过将其应用于训练时 和 测试时推理,完全实现了“让我们一步一步思考”的思想链(CoT)范式。 资料来源:OpenAI“与LLMs学习推理”。
………………………………