专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

o1 pro挑战美国本科生最难数学竞赛，30分钟交卷却被「大佬」现场打脸！

新智元 · 公众号 · AI · 2024-12-09 12:56

主要观点总结

文章主要介绍了OpenAI的o1数学竞赛表现及普特南数学竞赛相关信息。o1 pro参与了北美最难本科数学竞赛——普特南数学竞赛的试题解答，尽管它在一些题目上表现出色，但答案多数存在错误或不完整。同时，文章还提到了其他模型如o1和GPT-4o的表现，以及普特南数学竞赛的相关信息和历史背景。

关键观点总结

关键观点1: OpenAI的o1 pro参与普特南数学竞赛

o1 pro在半小时内完成了普特南数学竞赛的全部赛题，但答案存在错误或不完整，如A题存在错误、解题思路不严谨等问题。

关键观点2: CodeSignal创始人Tigran Sloyan对o1 pro的测试

他开启了两轮大测试，让o1 pro解决普特南数学竞赛A题和IMO试题，结果显示o1 pro在某些问题上表现良好，但也存在问题。

关键观点3: 其他模型的表现

其他模型如o1和GPT-4o在测试中未能解决一些问题。

关键观点4: 普特南数学竞赛的相关信息和历史背景

普特南数学竞赛是美国和加拿大本科生的数学竞赛，每年举办一届，是世界上最具权威的大学数学竞赛之一，比赛分为个人和团队两个环节。

文章预览

新智元报道编辑：编辑部 HYZ 【新智元导读】美国本科生最难数学竞赛，o1 pro竟然只用半小时就全部做出来了？要知道，参赛学生的正常答题时长是6小时。不过网友们仔细看它的解题过程后发现，错误率似乎高达100%，12道题没有一道完全正确？一年一次的北美最难本科数学竞赛，刚在MIT沃克纪念堂（Walker Memorial）落幕。这场普特南数学竞赛（Putnam Exam），每年汇聚了来自北美数百所高校的3500多名学生前来参赛。既有个体，也有团体，他们需要在总时长为6小时的时间内完成作答。在这场比赛还未开始之前，来自IBM研究员曾暗示，在公开题目发布后，会有人对大模型（AlphaProof、o1、Gemini）进行题目测试。恰好，OpenAI最近发布了满血版o1，以及最强o1 pro，不知它们在这场考试表现如何？相较于o1-preview，o1数学性能提升27%，o1 pro提升36% o1 Pro半 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博