文章预览
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 近期,OpenAI 号称最强推理模型的推出,引发了社区的热议,无论是性能还是价格,都产生了不少话题。最近,我们对 o1 新发布的 o1 满血版、o1 pro mode 模型进行了高难度数学测试,旨在深入探究其在数学推理方面的能力表现。同时以上海人工智能实验室的 InternThinker-Alpha、DeepSeek 的 DeepSeek-R1-Lite、月之暗面 k0-math 、阿里巴巴 QwQ-32B-Preview 等模型作为对比,「o1 pro」是否真的「自缘身在最高层?」 AGI-Eval 最新的高难度数学评测集 Math Pro Bench,试题来源包括全国高中数学联合
………………………………