专栏名称: CreateAMind
ALLinCreateAMind.AGI.top , 前沿AGI技术探索,论文跟进,复现验证,落地实验。 鼓励新思想的探讨及验证等。 探索比大模型更优的智能模型。
今天看啥  ›  专栏  ›  CreateAMind

OpenAI o1到底有多弱?

CreateAMind  · 公众号  ·  · 2024-09-17 09:59

文章预览

https://arcprize.org/blog/openai-o1-results-arc-prize ARC-AGI-Pub 上的 OpenAI o1 结果 OpenAI 新 o1 模型的 ARC 奖测试和说明 在过去的 24 小时内,我们获得了 OpenAI 新发布的 o1-preview 和 o1-mini 模型,这些模型经过专门训练来模拟推理。在给出最终答案之前,这些模型有额外的时间来生成和完善推理标记。 数百人询问 o1 在 ARC 奖上的表现如何。因此,我们使用与评估 Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 相同的基线测试工具对其进行测试。结果如下: o1 是 AGI 的新范式吗?规模会扩大吗?与 ARC-AGI 上的中等得分相比,o1 在 IOI、AIME 和许多其他令人印象深刻的基准测试得分上的表现之间存在巨大差异,如何解释? 有很多话要谈。   思想链 o1 通过将其应用于训练时 和 测试时推理,完全实现了“让我们一步一步思考”的思想链(CoT)范式。 资料来源:OpenAI“与LLMs学习推理”。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览