专栏名称: PaperAgent
日更,解读AI前沿技术热点Paper
目录
相关文章推荐
大楚网  ·  董宇辉,有变动 ·  7 小时前  
今天看啥  ›  专栏  ›  PaperAgent

OpenAI o1多步更复杂规划能力仅为23.63%

PaperAgent  · 公众号  ·  · 2024-09-24 12:27

文章预览

前顶会AAAI主席Subbarao Kambhampati发布了首篇评估OpenAI o1推理规划能力的17页论文,并 正式将o1-like的LLM更名为LRM( 大型推理模型 )。 LLM仍然不能很好的规划 尽管LLMs在处理语言相关的任务上取得了显著的进展,但它们在需要复杂规划和推理的任务上仍然表现不佳。 通过使用PlanBench基准测试对多个LLMs进行了评估,包括在Blocksworld( 经典的规划领域 )问题的静态数据集上测试它们的表现: 在未混淆(常规)Blocksworld问题上,最好的LLMs(如 LLaMA 3.1 405B )达到了 62.6% 的准确率。 然而,在语义相同但句法混淆的Mystery Blocksworld问题上,所有LLMs的表现都远远落后, 没有一款模型的准确率超过5% 。 在Blocksworld和Mystery Blocksworld领域600个实例上的性能,涵盖了使用zero-shot和one-shot提示的 不同家族的大型语言模型 。 表现最好的准确率以粗体显示。 OpenAI o1评测 OpenAI ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览