被神化的o1模型，规划能力到底如何？

大语言模型论文跟踪 · 公众号 · · 2024-09-25 08:08

文章预览

被神化的o1模型，规划能力到底如何？发布时间：2024 年 09 月 20 日 LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench 规划能力一直被视为智能代理的核心，自人工智能诞生之初便是研究重点。随着大型语言模型（LLM）的兴起，其规划能力备受关注。2022 年，我们推出了 PlanBench 基准，成为评估 LLM 规划能力的关键工具。尽管 GPT3 后涌现了众多 LLM，但在此基准上的进展却出奇缓慢。OpenAI 的 o1（Strawberry）模型旨在突破自回归 LLM 的局限，成为新型的大型推理模型（LRM）。本文以此为契机，全面审视了当前 LLM 及新 LRM 在 PlanBench 上的表现。虽然 o1 在基准测试中表现卓越，但仍未达饱和。这一进步也引发了关于准确性、效率和保障的讨论，这些都是在部署此类系统前必须深思的问题。 https://arxiv.org/abs/2409.13373 如遇无法添加，请+ vx: iamxxn886 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博