OpenAI o1到底有多弱？

CreateAMind · 公众号 · · 2024-09-17 09:59

文章预览

https://arcprize.org/blog/openai-o1-results-arc-prize ARC-AGI-Pub 上的 OpenAI o1 结果 OpenAI 新 o1 模型的 ARC 奖测试和说明在过去的 24 小时内，我们获得了 OpenAI 新发布的 o1-preview 和 o1-mini 模型，这些模型经过专门训练来模拟推理。在给出最终答案之前，这些模型有额外的时间来生成和完善推理标记。数百人询问 o1 在 ARC 奖上的表现如何。因此，我们使用与评估 Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 相同的基线测试工具对其进行测试。结果如下： o1 是 AGI 的新范式吗？规模会扩大吗？与 ARC-AGI 上的中等得分相比，o1 在 IOI、AIME 和许多其他令人印象深刻的基准测试得分上的表现之间存在巨大差异，如何解释？有很多话要谈。思想链 o1 通过将其应用于训练时和测试时推理，完全实现了“让我们一步一步思考”的思想链（CoT）范式。资料来源：OpenAI“与LLMs学习推理”。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

历史地理研究资讯 · 双一流博导教授: 如何利用AI辅助从选题到发表快速完成一篇学术论文

2 天前

人人都是产品经理 · 没有产品经验，求职产品被拒N次，我终于上岸了！

3 天前

广西师乐 · 广西新闻出版技工学校2024年度公开招聘教师！实名编制！

3 月前

普益标准 · 7月公募基金月报丨权益市场大多下跌，债市震荡上行，基金发行热度略有下降

3 月前

绿色可持续修复 · GSR公开课第47讲：相对绿色修复技术之案例（GCW及CGC）

6 月前