ACL 2024 | 对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

机器学习研究组订阅 · 公众号 · AI · 2024-07-18 17:16

文章预览

前言大型语言模型（LLMs）在解决问题方面的非凡能力日益显现。最近，一个值得关注的现象是，这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例，在高难度小学应用题测试集 GSM8K [1] 中表现优异，准确率高达 90% 以上。同时，许多开源模型也展现出了不俗的实力，准确率超过 80%。然而在使用中我们经常会发现，当数学问题稍作改变时，LLMs 可能会出现一些低级错误，如下图所示：图 1：GPT-3.5-Turbo 正确解答了一个数学问题（左），但当在原问题的基础上添加一个限制条件（右）时，Turbo 因为没有正确区分 “离开” 和 “返回” 的方向，而误用运算符出错。我们不禁要问：大型语言模型是否真的掌握了数学知识的精髓？它们是如何在这些测试中取得如此高分的？难道仅仅是因为模仿了大量训练数据中的表面推理模式吗？LLMs ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【bomoto：一个专业的人体模型工具包，用于对网格进行人体模型-20241124165430

昨天

爱可可-爱生活 · 【Comfyui_Flux_Style_Ctr：ComfyUI的-20241123160424

2 天前

新智元 · 美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

2 天前

爱可可-爱生活 · //@爱可可-爱生活:AI编程正在推动软件开发从“编码-实现”模-20241123091817

2 天前

宝玉xp · 随着 AI 编程能力提升和 AI 工具的增强，最近掀起了“人人写-20241120131523

5 天前

春城晚报 · 女子网上"晒手掌"！竟真查出肝硬化……

2 月前

同写意 · 益诺思与复容投资战略合作仪式成功举行！ | 会员动态

1 月前