专栏名称: 旺知识
AI技术最新进展、发展趋势、研发经验、从业经验
今天看啥  ›  专栏  ›  旺知识

首个大推理模型(LRM) - OpenAI o1规划任务能力评测

旺知识  · 公众号  ·  · 2024-10-01 15:26
    

文章预览

规划一系列行动以实现期望状态的能力,长期以来被认为是智能体的核心能力,并且自AI研究诞生以来一直是其不可分割的一部分。随着大型语言模型(LLMs)的出现,人们对于它们是否拥有此类规划能力产生了相当大的兴趣。PlanBench是我们在2022年开发的一款可扩展基准测试工具,自GPT3发布后不久首次亮相,它一直是评估LLMs规划能力的重要工具。尽管自GPT3以来出现了许多新的私有和开源LLMs,但在这个基准测试上的进步却出奇地缓慢。OpenAI声称他们最近的o1(草莓)模型专门构建和训练,以摆脱自回归LLMs的常规限制——使其成为一种新型模型:大型推理模型(LRM)。利用这一发展作为催化剂,本文全面审视了当前LLMs和新型LRMs在PlanBench上的表现。正如我们将看到的,尽管o1的表现在基准测试上是一个巨大的进步,超越了竞争对手,但仍然远未达到饱 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览