280页PDF，全方位评估OpenAI o1，Leetcode刷题准确率竟这么高

机器学习研究组订阅 · 公众号 · AI · 2024-10-01 19:42

文章预览

计算机科学、数学、自然科学、医学、语言学、社会科学……OpenAI o1擅长什么？还有哪些不足？ OpenAI 的 o1-preview 模型已经发布两周了，网上也有了很多零星的测评。不过，大部分测评都侧重于某一个方面，对于 o1-preview 的系统评估目前还比较匮乏。在一篇长达 280 页的论文中，来自加拿大阿尔伯塔大学等机构的研究者报告了他们对 o1-preview 的系统评估结果，非常具有参考价值。论文标题：Evaluation of OpenAI o1: Opportunities and Challenges of AGI 论文链接：https://arxiv.org/pdf/2409.18486 具体来说，这项综合研究评估了 o1-preview 在各种复杂推理任务中的性能，涵盖多个领域，包括计算机科学、数学、自然科学、医学、语言学和社会科学。通过严格的测试，o1-preview 展示了非凡的能力。主要结论如下：编程挑战：在解决复杂的竞赛性编程问题上，o1-preview 的成功率 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【Awesome Foundation Model ROS：一个-20241127130653

昨天

量子位 · 又一个国产o1来了，直接数学竞赛题伺候！

昨天

爱可可-爱生活 · 深度分析AI与印刷术的共性特征-20241126084800

3 天前

爱可可-爱生活 · 晚安～ #晚安# -20241123230805

5 天前

机器之心 · 这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

5 天前

我是二姐夫 · 花旗银行：54%的银行职位有可能被自动化系统所替代，其中财务部门-20240620055653

5 月前

暴走大事件 · 妹妹你才刚中考完，听我说这东西不适合你

5 月前

大麦广东 · 【佛山】香港话剧团《天下第一楼》：为什么这出戏非看不可？

1 周前