专栏名称: 清熙

清晰、客观、理性探讨大模型（LLM）、人工智能（AI）、大数据（Big Data）、物联网（IoT）、云计算（Cloud）、供应链数字化等热点科技的原理、架构、实现与应用。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

驳“苹果称LLM不会推理”

清熙 · 公众号 · · 2024-10-15 20:30

文章预览

近期苹果公司几位学者预印论文《 GSM-Symbolic : 认识大语言模型中数学推理的局限性》[文献1]称：“调查了这些LLM中数学推理的脆弱性，并表明它们的性能随着问题中子句数量的增加而显著恶化。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理;他们从训练数据中复制推理步骤”。试验从GSM8K开始，标准化的 8000 多个小学水平数学问题，常用作现代 LLM 复杂推理能力的验证基准。苹果学者的方法是：修改该测试集的一部分，用新值动态地替换某些名称和数字，构造新的测试问题集 “ GSM-Symbolic ”，学者们试图用这个方式避免LLM训练刷题，并且认为“偶然的变化根本不会改变固有数学推理的实际难度”。笔者初步判断这样调整测试集的方式有待商榷：辅导过小学生应用题的家长肯定有体会，简单改变数值，有可能导致问题难度增加哦。不 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博