首个大推理模型(LRM) - OpenAI o1规划任务能力评测

旺知识 · 公众号 · · 2024-10-01 15:26

文章预览

规划一系列行动以实现期望状态的能力，长期以来被认为是智能体的核心能力，并且自AI研究诞生以来一直是其不可分割的一部分。随着大型语言模型（LLMs）的出现，人们对于它们是否拥有此类规划能力产生了相当大的兴趣。PlanBench是我们在2022年开发的一款可扩展基准测试工具，自GPT3发布后不久首次亮相，它一直是评估LLMs规划能力的重要工具。尽管自GPT3以来出现了许多新的私有和开源LLMs，但在这个基准测试上的进步却出奇地缓慢。OpenAI声称他们最近的o1（草莓）模型专门构建和训练，以摆脱自回归LLMs的常规限制——使其成为一种新型模型：大型推理模型（LRM）。利用这一发展作为催化剂，本文全面审视了当前LLMs和新型LRMs在PlanBench上的表现。正如我们将看到的，尽管o1的表现在基准测试上是一个巨大的进步，超越了竞争对手，但仍然远未达到饱 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博