最强 OpenAI o1 逻辑推理正确率仅 50%！清华、智谱推出「大模型逻辑推理新基准」

人工智能学家 · 公众号 · AI · 2024-10-16 17:49

文章预览

9.11 和 9.9 哪个大？这一连人类幼儿园儿童都能回答的问题，曾经（至今）难倒了众多大语言模型（LLM）。然而，要想达到通用人工智能（AGI）的水平，LLM 不仅要完成“比大小”这种简单的逻辑推理，还需要完成难度更高的推理，比如“对复杂规则的理解与执行以及多步骤规划”，这是 LLM 智能体（agent）和决策系统的核心能力。因此，如何有效评估 LLM 作为基于规则的执行者和规划者角色，至关重要。但是，目前学界和业界少有这方面的研究。来自清华大学和智谱的研究团队推出了一项新的基准测试—— LogicGame ，旨在全面评估 LLM 在规则理解、执行和规划方面的能力。先看评测结果：图｜LogicGame 的评测结果和样例展示。上图为各种模型在执行和规划类别中的表现；下图（左、右）分别为两个执行和规划类别案例研究。除了看到 o1-preview、o-m ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · //@程序员邹欣://@张作风流行病学教授UCLA:医学上的精神-20241223103339

2 天前

量子位 · 李飞飞谢赛宁新作「空间推理」：多模态大模型性能突破关键所在

2 天前

宝玉xp · 回复@oOl0rz:提示词是省不了的，就好比你雇个人帮你干活，你-20241223071208

2 天前

黄建同学 · Jim Fan 大佬关于Genisis（网页链接）的赞赏↓如果一-20241221175323

3 天前

爱可可-爱生活 · 《爱可可微博热门分享(12.20)》爱可可微博热门分享(12-20241220221514

4 天前

生物通 · JAK抑制剂焕发“第二春”：Science双发，逆转T细胞耗竭

4 月前

DONG 洞 · 10.25 今晚赛普厂牌第十二张合辑发布会@DONG 洞

2 月前

游戏茶馆 · 《绝区零》1.4重新开服？六小时杀入iOS游戏畅销榜榜首

6 天前