文章预览
规划一系列行动以实现期望状态的能力,长期以来被认为是智能体的核心能力,并且自AI研究诞生以来一直是其不可分割的一部分。随着大型语言模型(LLMs)的出现,人们对于它们是否拥有此类规划能力产生了相当大的兴趣。PlanBench是我们在2022年开发的一款可扩展基准测试工具,自GPT3发布后不久首次亮相,它一直是评估LLMs规划能力的重要工具。尽管自GPT3以来出现了许多新的私有和开源LLMs,但在这个基准测试上的进步却出奇地缓慢。OpenAI声称他们最近的o1(草莓)模型专门构建和训练,以摆脱自回归LLMs的常规限制——使其成为一种新型模型:大型推理模型(LRM)。利用这一发展作为催化剂,本文全面审视了当前LLMs和新型LRMs在PlanBench上的表现。正如我们将看到的,尽管o1的表现在基准测试上是一个巨大的进步,超越了竞争对手,但仍然远未达到饱
………………………………