专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

啊!DeepSeek-R1、o3-mini能解奥数题却算不了多位数乘法?

机器之心  · 公众号  · AI  · 2025-02-14 09:50
    

主要观点总结

文章介绍了大模型在数学能力方面的进展,特别是多位数乘法方面的挑战。文章提到了DeepSeek-R1和o3-mini等推理模型在AI数学竞赛中的表现,以及非智能计算器相较于这些模型在多位数乘法任务上的可靠性。同时,文章还介绍了微软研究院团队使用递归式自我提升方法解决Transformer模型的长度泛化问题,使得模型能够通过自我改进学习更复杂的任务,包括多位数乘法。然而,文章并未详细探讨大模型直接调用计算器应用的可能性。

关键观点总结

关键观点1: 推理模型如DeepSeek-R1和o3-mini在数学竞赛中取得了一定成绩,但在多位数乘法任务上仍存在挑战。

这些模型在处理超过一定位数的乘法时会出现准确度下滑,相较于非智能计算器在多位数乘法任务上的表现并不理想。

关键观点2: 微软研究院团队使用递归式自我提升方法解决了Transformer模型的长度泛化问题。

该方法使得模型能够通过自我改进学习更复杂的任务,包括多位数乘法。实验表明,结合使用多数投票与长度过滤的自我改进策略能够在一定轮次内显著提升模型在乘法任务上的表现。

关键观点3: 对于大模型直接调用计算器应用的可能性,文章提到尚待研究。

目前尚不清楚大模型如何学习算法以及如何更好地在比其训练数据更困难的数据上取得更好的表现。


文章预览

机器之心报道 编辑:Panda 我们都知道,普通大模型的数学能力并不好,甚至可能会搞不清楚 9.8 和 9.11 哪个大。但随着 o1、o3 以及 DeepSeek-R1 等推理模型的到来,情况正在发生变化。比如 DeepSeek-R1 在竞赛数学基准 AIME 2024 上达到了 79.8% 的准确度,成就了自己头号开源推理模型的地位。 而根据 OpenAI 发布的数据,o3-mini (high) 在 AIME 2024 上的准确度更是达到了 87.3%,预计 o3 满血版的成绩还会更好。 但即便如此,这些强大的推理模型却依然常常在一类看起来相当简单的数学问题上栽跟头,那就是简单的乘法算法,尤其是多位数乘法。 去年 9 月,滑铁卢大学助理教授邓云天(Yuntian Deng)在 𝕏 上分享了自己的一个实验结果:通过让 o1 计算最多 20x20(20 位数乘 20 位数)的乘法,发现该模型到 9x9 乘法之后准确度就不好看了,而 GPT-4o 更是在 4x4 时就会难以为 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览