OpenAI新模型达到博士水平？我找几位博士测试了一下

知危 · 公众号 · AI 科技自媒体 · 2024-09-13 18:45

主要观点总结

本文主要介绍了OpenAI发布的新模型o1的特点和表现。新模型在多个领域表现优异，特别是物理方面，三位知名院校的博士对新模型的评估也给出了正面评价。此外，文章还介绍了o1模型采用的长思维链技术，使其能够像博士一样思考物理问题。

关键观点总结

关键观点1: OpenAI发布了新模型o1，它在各领域表现优异。

新模型o1在很多领域表现超越其前辈，比如国际数学奥林匹克竞赛、编程竞赛以及博士级别的科学问题等。

关键观点2: 三位博士对新模型o1的评价。

三位博士对新模型给出了积极的评价，但也指出了其局限性。他们认为在某些问题上，o1模型的表现已经达到了较高水平，但在科研工作中仍需要人类学者亲自动手解决细节问题。

关键观点3: 新模型o1采用长思维链技术。

新模型采用了长思维链技术，使得它像博士一样思考问题，这一技术的应用也是其在新模型中表现出色的原因之一。

关键观点4: 新模型o1在某些基础问题上仍有低级错误。

尽管新模型在某些领域表现出色，但在一些基础问题上仍然会出现低级错误。

文章预览

今天凌晨，OpenAI 毫无预告地发布了业内期待已久的新模型。此前，大家从 CEO 奥特曼的推文中猜测这个模型会叫 “ 草莓 ”。而在实际发布的时候，这个模型的名字叫 OpenAI o1 模型。奥特曼对这个模型的评价是：他们迄今为止最强、最一致的模型。在官方给出的一组数据图中，我们能很明显地看到 o1 模型在国际数学奥林匹克竞赛、编程竞赛还有博士级别的科学问题上有很大提高。图中最左侧为 GPT-4o，中间是目前已经开放了的预览版 o1，最右边高高的红色柱子为满血版 o1。我们可以看到，基本每一项，o1 比起自己的前辈来说，都是接近 8 倍的提升。如果把这些测试结果拆开来，新 o1 也几乎是在各种学科、各种领域，都全量、全面、全方位地超越 4o 版本模型。而最让人感到可怕的是： OpenAI 说自己专门请了博士专家一起答题，结果在博士级别 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

数据法盟 · DeepSeek将于下周开源5个代码库:AI没有高高在上的象牙塔，只有创业精神与创新力量

昨天

数据法盟 · DeepSeek将于下周开源5个代码库:AI没有高高在上的象牙塔，只有创业精神与创新力量

昨天

天津日报 · “AI公务员”上岗！公务员的饭碗还能端稳吗｜津报早评

昨天

天津日报 · “AI公务员”上岗！公务员的饭碗还能端稳吗｜津报早评

昨天

湛江日报 · 湛江12345接入DeepSeek！不只是速度变快→

2 天前

爱可可-爱生活 · [CL]《Reasoning on a Spectrum: Al-20250220060303

2 天前

艾锋降级 · 真来了！iPhone 16e 新机型，搭载 C1 调制解调器

2 天前

艾锋降级 · 真来了！iPhone 16e 新机型，搭载 C1 调制解调器

2 天前

香港新港人 · 羅湖通關口岸人頭湧湧迎來港人回港潮

2 周前

潇湘晨报 · 以军刺杀黎巴嫩真主党前领导人监控首次曝光：炸弹摧毁建筑物，一男子奇迹生还

2 周前