文章预览
前顶会AAAI主席Subbarao Kambhampati发布了首篇评估OpenAI o1推理规划能力的17页论文,并 正式将o1-like的LLM更名为LRM( 大型推理模型 )。 LLM仍然不能很好的规划 尽管LLMs在处理语言相关的任务上取得了显著的进展,但它们在需要复杂规划和推理的任务上仍然表现不佳。 通过使用PlanBench基准测试对多个LLMs进行了评估,包括在Blocksworld( 经典的规划领域 )问题的静态数据集上测试它们的表现: 在未混淆(常规)Blocksworld问题上,最好的LLMs(如 LLaMA 3.1 405B )达到了 62.6% 的准确率。 然而,在语义相同但句法混淆的Mystery Blocksworld问题上,所有LLMs的表现都远远落后, 没有一款模型的准确率超过5% 。 在Blocksworld和Mystery Blocksworld领域600个实例上的性能,涵盖了使用zero-shot和one-shot提示的 不同家族的大型语言模型 。 表现最好的准确率以粗体显示。 OpenAI o1评测 OpenAI
………………………………