专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!

新智元  · 公众号  · AI  · 2024-12-09 12:56
    

主要观点总结

文章主要介绍了OpenAI的o1数学竞赛表现及普特南数学竞赛相关信息。o1 pro参与了北美最难本科数学竞赛——普特南数学竞赛的试题解答,尽管它在一些题目上表现出色,但答案多数存在错误或不完整。同时,文章还提到了其他模型如o1和GPT-4o的表现,以及普特南数学竞赛的相关信息和历史背景。

关键观点总结

关键观点1: OpenAI的o1 pro参与普特南数学竞赛

o1 pro在半小时内完成了普特南数学竞赛的全部赛题,但答案存在错误或不完整,如A题存在错误、解题思路不严谨等问题。

关键观点2: CodeSignal创始人Tigran Sloyan对o1 pro的测试

他开启了两轮大测试,让o1 pro解决普特南数学竞赛A题和IMO试题,结果显示o1 pro在某些问题上表现良好,但也存在问题。

关键观点3: 其他模型的表现

其他模型如o1和GPT-4o在测试中未能解决一些问题。

关键观点4: 普特南数学竞赛的相关信息和历史背景

普特南数学竞赛是美国和加拿大本科生的数学竞赛,每年举办一届,是世界上最具权威的大学数学竞赛之一,比赛分为个人和团队两个环节。


文章预览

   新智元报道   编辑:编辑部 HYZ 【新智元导读】 美国本科生最难数学竞赛,o1 pro竟然只用半小时就全部做出来了?要知道,参赛学生的正常答题时长是6小时。不过网友们仔细看它的解题过程后发现,错误率似乎高达100%,12道题没有一道完全正确? 一年一次的北美最难本科数学竞赛,刚在MIT沃克纪念堂(Walker Memorial)落幕。 这场普特南数学竞赛(Putnam Exam),每年汇聚了来自北美数百所高校的3500多名学生前来参赛。 既有个体,也有团体,他们需要在总时长为6小时的时间内完成作答。 在这场比赛还未开始之前,来自IBM研究员曾暗示,在公开题目发布后,会有人对大模型(AlphaProof、o1、Gemini)进行题目测试。 恰好,OpenAI最近发布了满血版o1,以及最强o1 pro,不知它们在这场考试表现如何? 相较于o1-preview,o1数学性能提升27%,o1 pro提升36% o1 Pro半 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览