LLM仍然不能规划，刷屏的OpenAI o1远未达到饱和

机器之心 · 公众号 · AI · 2024-09-24 20:42

文章预览

机器之心报道编辑：陈陈、小舟实验证明，大模型的 System 2 能力还有待开发。规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型（LLM）的出现，人们对 LLM 是否具有这种规划能力产生了极大的兴趣。最近， OpenAI 发布了 o1 模型，一举创造了很多历史记录。o1 模型拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，让大模型的上限从「没法看」直接上升到优秀水平，不专门训练直接数学奥赛金牌，甚至能在博士级别的科学问答环节上超越人类专家。那么，o1 模型是否具备上述规划能力？ 2022 年，来自亚利桑那州立大学（ASU）的研究团队开发了评估 LLM 规划能力的基准 ——PlanBench。现在，亚利桑那州立大学研究团队全面审视了当前 LLM 在 PlanBench 上的表现，包括 o1 模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 【马斯克：先斩后奏，懂王特许，这就是效率部-哔哩哔哩】马斯克：-20241120125301

3 天前

爱可可-爱生活 · 【cuEquivariance：NVIDIA开发的高性能神经网络-20241119141036

4 天前

人工智能那点事 · “00后”退役女兵开家政公司，网友：“一进门的气势就震撼到我了！”

6 天前

爱可可-爱生活 · 本文通过构建一个新的基准测试系统，系统性地评估了大型语言模型模拟-20241117072232

6 天前

宝玉xp · 这个象限划分很有意思-20241117020514

6 天前

PV-Tech · 美国东南部将建6GW电池、组件厂

2 月前

TopDigital · 从「成都迪士尼」到「疯狂星期四」，聊聊品牌如何构建「群体游戏」

1 月前

陈梦竹海外研究之声 · 国海海外·陈梦竹 | 哔哩哔哩-W（9626.HK）2024Q3财报点评：手游及广告增长强劲，首次实现单季盈利转正

6 天前