专栏名称: 清熙
清晰、客观、理性探讨大模型(LLM)、人工智能(AI)、大数据(Big Data)、物联网(IoT)、云计算(Cloud)、供应链数字化等热点科技的原理、架构、实现与应用。
今天看啥  ›  专栏  ›  清熙

驳“苹果称LLM不会推理”

清熙  · 公众号  ·  · 2024-10-15 20:30

文章预览

近 期苹果公司几位学者预印论文《 GSM-Symbolic : 认识大语言模型中数学推理的局限性 》[文献1]称:“调查了这些LLM中数学推理的脆弱性,并表明它们的性能随着问题中子句数量的增加而显著恶化。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理;他们从训练数据中复制推理步骤”。 试验从GSM8K开始,标准化的 8000 多个小学水平数学问题,常用作现代 LLM 复杂推理能力的验证基准。苹果学者的方法是:修改该测试集的一部分,用新值动态地替换某些名称和数字,构造新的测试问题集 “ GSM-Symbolic ”,学者们试图用这个方式避免LLM训练刷题,并且认为“偶然的变化根本不会改变固有数学推理的实际难度”。 笔者初步判断这样调整测试集的方式有待商榷:辅导过小学生应用题的家长肯定有体会,简单改变数值,有可能导致问题难度增加哦。不 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览