今天看啥  ›  专栏  ›  机器之心

LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和

机器之心  · 公众号  · AI  · 2024-09-24 20:42

文章预览

机器之心报道 编辑:陈陈、小舟 实验证明,大模型的 System 2 能力还有待开发。 规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型(LLM)的出现,人们对 LLM 是否具有这种规划能力产生了极大的兴趣。 最近, OpenAI 发布了 o1 模型 ,一举创造了很多历史记录。o1 模型拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力,相比 GPT-4o 有巨大提升,让大模型的上限从「没法看」直接上升到优秀水平,不专门训练直接数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。 那么,o1 模型是否具备上述规划能力? 2022 年,来自亚利桑那州立大学(ASU)的研究团队开发了评估 LLM 规划能力的基准 ——PlanBench。现在,亚利桑那州立大学研究团队全面审视了当前 LLM 在 PlanBench 上的表现,包括 o1 模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览