OpenAI o1多步更复杂规划能力仅为23.63%

PaperAgent · 公众号 · · 2024-09-24 12:27

文章预览

前顶会AAAI主席Subbarao Kambhampati发布了首篇评估OpenAI o1推理规划能力的17页论文，并正式将o1-like的LLM更名为LRM（大型推理模型）。 LLM仍然不能很好的规划尽管LLMs在处理语言相关的任务上取得了显著的进展，但它们在需要复杂规划和推理的任务上仍然表现不佳。通过使用PlanBench基准测试对多个LLMs进行了评估，包括在Blocksworld（经典的规划领域）问题的静态数据集上测试它们的表现：在未混淆（常规）Blocksworld问题上，最好的LLMs（如 LLaMA 3.1 405B ）达到了 62.6% 的准确率。然而，在语义相同但句法混淆的Mystery Blocksworld问题上，所有LLMs的表现都远远落后，没有一款模型的准确率超过5% 。在Blocksworld和Mystery Blocksworld领域600个实例上的性能，涵盖了使用zero-shot和one-shot提示的不同家族的大型语言模型。表现最好的准确率以粗体显示。 OpenAI o1评测 OpenAI ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博