自缘身在最高层？OpenAI o1 pro竞赛级评测结果新鲜出炉

机器之心 · 公众号 · AI · 2024-12-22 12:54

文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com 近期，OpenAI 号称最强推理模型的推出，引发了社区的热议，无论是性能还是价格，都产生了不少话题。最近，我们对 o1 新发布的 o1 满血版、o1 pro mode 模型进行了高难度数学测试，旨在深入探究其在数学推理方面的能力表现。同时以上海人工智能实验室的 InternThinker-Alpha、DeepSeek 的 DeepSeek-R1-Lite、月之暗面 k0-math 、阿里巴巴 QwQ-32B-Preview 等模型作为对比，「o1 pro」是否真的「自缘身在最高层？」 AGI-Eval 最新的高难度数学评测集 Math Pro Bench，试题来源包括全国高中数学联合 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 从截图还原网页，Claude sonnet 3.5 最强，o1 -20241223070821

11 小时前

爱可可-爱生活 · 字节潜Transformer (BLT)通过动态块分配机制，在保-20241223054514

12 小时前

宝玉xp · 转发微博-20241223034119

15 小时前

宝玉xp · 转发微博-20241221161829

2 天前

爱可可-爱生活 · 几篇论文实现代码：《MoME: Mixture of Multi-20241218142750

5 天前

i黑马 · 段永平怼网友；京淘淘称被羊毛党薅走1.8亿；管培生拒绝周末跑10公里被辞退；苹果客服回应iPhone16使用钢壳电池...

3 月前