今天看啥  ›  专栏  ›  人工智能学家

最强 OpenAI o1 逻辑推理正确率仅 50%!清华、智谱推出「大模型逻辑推理新基准」

人工智能学家  · 公众号  · AI  · 2024-10-16 17:49

文章预览

9.11 和 9.9 哪个大? 这一连人类幼儿园儿童都能回答的问题,曾经(至今)难倒了众多大语言模型(LLM)。 然而, 要想达到通用人工智能(AGI)的水平,LLM 不仅要完成“比大小”这种简单的逻辑推理,还需要完成难度更高的推理 ,比如“对复杂规则的理解与执行以及多步骤规划”,这是 LLM 智能体(agent)和决策系统的核心能力。 因此,如何有效评估 LLM 作为基于规则的执行者和规划者角色,至关重要。但是,目前学界和业界少有这方面的研究。 来自清华大学和智谱的研究团队推出了一项新的基准测试—— LogicGame ,旨在 全面评估 LLM 在规则理解、执行和规划方面的能力 。先看评测结果: 图|LogicGame 的评测结果和样例展示。上图为各种模型在执行和规划类别中的表现;下图(左、右)分别为两个执行和规划类别案例研究。 除了看到 o1-preview、o-m ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览