大模型推理更可能是概率模式匹配？北大团队从蒙特卡洛语言树的新视角解读GPT，思维链原理也有新的理解

量子位 · 公众号 · AI · 2025-01-30 12:20

文章预览

GPT-Tree团队投稿量子位 | 公众号 QbitAI 思维链（CoT）为什么能够提升大模型的表现？大模型又为什么会出现幻觉？北大课题组的研究人员，发现了一个分析问题的新视角，将语言数据集和GPT模型展开为蒙特卡洛语言树。具体来说，数据集和模型分别被展开成了 Data-Tree 和 GPT-Tree 。结果，他们发现，现有的模型拟合训练数据的本质是在寻求一种更有效的数据树近似方法 (即 )。进一步地，研究人员认为，大模型中的推理过程，更可能是概率模式匹配，而不是形式推理。将数据和模型拆解为蒙特卡洛树在预训练过程中，大模型通常学习的是如何预测下一个token（也就是将每个token的似然进行最大化），从而对大规模数据进行无损压缩。其中，是优化上述似然得到的模型参数。作者发现，任何语言数据集都可以用蒙特卡洛语言树（简称“Data ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博