今天看啥  ›  专栏  ›  腾讯科技

大模型连乘法都不会做?一系列新研究再次挑战AI推理能力

腾讯科技  · 公众号  · 科技媒体  · 2024-11-11 14:49
    

主要观点总结

本文介绍了大语言模型在算术处理上的研究和探讨,包括空间基数、标签空间熵和子群质量等维度的研究,以及大模型在数学运算中的底层逻辑和启发式规则的发现。同时,文章还探讨了OpenAI-o1模型在推理能力上的提升以及COT技术在其中的作用。

关键观点总结

关键观点1: 大语言模型在处理算术时的独特方法

大语言模型在进行算术运算时并没有采用我们熟知的计算规则,而是自行发现一些符号上的统计规律。这种独特的模式识别方法被称为“符号学习者”,而非“逻辑学习者”。

关键观点2: 大模型数学运算的底层逻辑

大模型在进行数学运算时,通过自回归预测的方式,利用子群逻辑去计算。子群复杂度越低,模型的正确率越高。这种底层逻辑体现在模型的准确率呈U形分布,即头尾数字的准确率远高于中间数字。

关键观点3: 启发式规则的发现

通过探测激活神经元,研究者发现了处理数学计算的核心神经元——多层感知器(MLP)。这些神经元在进行数据预测时会被激活,它们通过一些启发式规则来识别计算结果。这些规则包括范围启发式、取模启发式、模式启发式等。

关键观点4: OpenAI-o1模型在推理能力上的提升

OpenAI-o1模型通过融入COT(思维链)技术,提升了其推理能力。COT技术能够将复杂问题拆解成简单步骤,使得大语言模型能够完成更复杂的数学计算。然而,这种提升是否真正意味着模型学会了数学规则,还是仅仅进行了模式匹配,仍需进一步探讨。


文章预览

AI未来指北作者 郝博阳 编辑 郑可君 今年七月,“9.11和9.9谁更大”这个简单的问题,竟让大多数最先进的大模型都翻了车。根据机器之心的测试,15个主流大模型里,有超过一半都没答对。连GPT-4o和Claude 3.5 Sonnet这两个顶尖模型都是一通操作猛如虎,结论全是不靠谱。 这件事,引发了AI圈内关于AI符号理解能力的大讨论。 到了十月,苹果发表的一篇论文,更是认为大语言模型缺乏解决数理问题的逻辑推理能力。 在论文中,苹果的研究者发现,只要稍稍更改现有测试集里的数字或词,大语言模型的正确率就会显著下降。如果再加上一些新信息,比如多增加一个条件(把小明花100买苹果,拆成花100买苹果和梨),模型的性能则下降地更为明显。 所以他们得到了一个结论: 大语言模型更像复杂的模式匹配,而不是真正的逻辑推理。 但是,用修改测试集 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览