专栏名称: 图灵人工智能

人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

AI 推理能力大“翻车”！苹果最新论文：LLM只是复杂的模式匹配，而不是真正的逻辑推理

图灵人工智能 · 公众号 · · 2024-10-20 11:01

文章预览

点击上方“ 图灵人工智能 ”，选择“星标”公众号您想知道的人工智能干货，第一时间送达为了测试 LLM 的数学推理能力的极限，Farajtabar 和他的团队开发了一个名为 GSM-Symbolic 的新工具，它可以根据 GSM8K 测试集创建符号模板，从而能够生成大量实例并设计可控实验。他们生成了 50 个独特的 GSM-Symbolic 集合，这些集合本质上就像 GSM8K 示例，但具有不同的值和名称 2.所谓的 LLM 推理能力不堪一击！ LLM 对专有名词和数字的更改非常敏感，这说明它们并没有真正理解数学概念。就像一个小学生，如果我们只是更改了数学测试题中的人名，他的分数就会下降 10% 吗？显然不会 3.随着问题难度的增加 (M1 → Symbolic → P1 → P2)。引入了 GSM-Symbolic 的三个新变体来研究模型行为：删除一个分句（GSM-M1）、增加一个分句（GSM-P1） ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博