实测 OpenAI 新模型 o1 ：做题王者，实战青铜

APPSO · 公众号 · app · 2024-09-13 16:09

主要观点总结

OpenAI发布了o1系列模型，擅长推理。文章介绍了模型测评情况，总结了o1-preview在数学、逻辑和情景推理方面的表现，并对比了GPT-4o。文章还提到了模型在实际生活问题处理中的表现，强调了计算只是推理的一部分，模型在模仿人类思维方面仍有待提升。

关键观点总结

关键观点1: OpenAI发布o1系列模型，具备强大的推理能力。

模型能力逐代增强，测评难度逐渐增加。o1-preview擅长做题、搞研究，像适合待在实验室的高材生。

关键观点2: o1-preview在数学和逻辑方面的表现。

o1-preview反应迅速，上手解题。逻辑推理题方面，能快速答对爱丽丝兄弟的姐妹数量问题。但在情景推理方面，进阶考验中表现稍慢于GPT-4o，但答案较接近真相。

关键观点3: 模型在实际生活问题处理中的表现。

在实际生活问题处理中，模型需要搜集信息并做出决策。但在处理实际问题时，如计算消费补贴等场景，模型的反应速度和信息更新能力有待提高。

关键观点4: 计算只是推理的一部分。

虽然计算是推理的重要部分，但真正的推理还包括综合性、全局性的思考。模型在模仿人类思维方面仍有待提升。

文章预览

今天凌晨， OpenAI 发布了 o1 系列模型，最大的特点是擅长推理。模型的能力，一代比一代强，我们的测评，一次比一次难做。测评变成一件「毕恭毕敬」的事情，生怕提不出好问题（难不倒它），在让它推理之前，我们自己的脑子就快烧没了。最重要的原因是：我们想知道，被寄予厚望的新一代模型，有没有应用到实际生活中的推理能力？以及要如何测出这样的能力？秉承着这个想法，我们设计了一套考验 o1-preview 综合能力的「考卷」。省流版结论如下：它擅长做题、搞研究，更像一个适合待在实验室的高材生，你现在还不能指望它成为生活里的助手。热身：数学与逻辑能力强，速度还不慢发布会的数据大家看了很多，尤其是新一代 o1 在各项任务上的评分，都有超乎以往的表现。比如 OpenAI 的官方文档里，特别提到 AIME 数学竞赛的考试中 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博