文章预览
被神化的o1模型,规划能力到底如何? 发布时间:2024 年 09 月 20 日 LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench 规划能力一直被视为智能代理的核心,自人工智能诞生之初便是研究重点。随着大型语言模型(LLM)的兴起,其规划能力备受关注。2022 年,我们推出了 PlanBench 基准,成为评估 LLM 规划能力的关键工具。尽管 GPT3 后涌现了众多 LLM,但在此基准上的进展却出奇缓慢。OpenAI 的 o1(Strawberry)模型旨在突破自回归 LLM 的局限,成为新型的大型推理模型(LRM)。本文以此为契机,全面审视了当前 LLM 及新 LRM 在 PlanBench 上的表现。虽然 o1 在基准测试中表现卓越,但仍未达饱和。这一进步也引发了关于准确性、效率和保障的讨论,这些都是在部署此类系统前必须深思的问题。 https://arxiv.org/abs/2409.13373 如遇无法添加,请+ vx: iamxxn886
………………………………