给小学数学题加句「废话」，OpenAI o1就翻车了，苹果新论文质疑AI推理能力

机器学习研究组订阅 · 公众号 · AI · 2024-10-12 18:55

文章预览

苹果新论文：AI 大模型可能不会推理。 AI 大模型（LLM）真的像我们理解的那样能「思考」或「推理」吗？最近，苹果的一篇论文探讨了这个问题，并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。这篇题为「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的论文，一作是苹果机器学习研究工程师 Iman Mirzadeh，图灵奖得主 Yoshua Bengio 的弟弟 Samy Bengio 也是作者之一。他们是怎么得出上述结论的呢？我们先来看一个例子。假设有一个数学问题：奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天，他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃？显然，答案是 44 + 58 + (44 * 2) = 190。尽管大型语言模型在算术上表现不稳定，但它们通常能够可靠地解决类似问题。但如果我们加入一些 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 几篇论文实现代码：《MoE Jetpack: From Dens-20241124171610

昨天

爱可可-爱生活 · 【Marco-o1：开源大型推理模型，专注于解决现实世界的开放性-20241123155539

2 天前

爱可可-爱生活 · //@爱可可-爱生活:AI编程正在推动软件开发从“编码-实现”模-20241123091817

2 天前

宝玉xp · //@紅塵浪裡好修行:好，变刚需了……-20241121101133

4 天前

夕小瑶科技说 · 3名高中生中了AI顶会NeurIPS！来自人大附中、北师大实验中学、上海星河湾双语学校

5 天前

夕小瑶科技说 · 3名高中生中了AI顶会NeurIPS！来自人大附中、北师大实验中学、上海星河湾双语学校

5 天前

印象笔记 · 夏日出游，爬山涉水就穿TA，速干轻盈，狂走10000步+也不累脚

4 月前

期乐会 · 祖师爷杰西·利弗莫尔告诉你：这张表，应该是做期货股票交易的第一课！（经典再读）

4 月前

PCEC 可持续发展服务 · 一图读懂 | 国家发展改革委等部门关于加强煤炭清洁高效利用的意见

1 月前