文章预览
机器之心报道 编辑:泽南、杜伟 大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。 大语言模型的「推理」能力应该不是推理,在今年 6 月, 一篇 Nature 论文 《Language is primarily a tool for communication rather than thought》曾引发 AI 社区的大讨论,改变了我们对于 AI 智力的看法。 该论文认为人类语言主要是用于交流的工具,而不是思考的工具,对于任何经过测试的思维形式都不是必需的。图灵奖获得者 Yann LeCun 对此还表示,无论架构细节如何,使用固定数量的计算步骤来计算每个 token 的自回归 LLM 都无法进行推理。 那么,大模型的「推理」行为到底是在做什么呢?本周四,一篇来自伦敦大学学院(UCL)等机构的研究《Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models》详细探讨了大语言模型(LLM)在执行推理
………………………………