专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

耗资1.3万，ASU团队揭秘o1推理王者！碾压所有LLM成本超高，关键还会PUA

新智元 · 公众号 · AI · 2024-10-02 15:01

主要观点总结

文章介绍了LLM和LRM在推理规划任务上的表现，重点评估了o1模型在PlanBench基准测试上的性能，包括其在规划能力、混淆问题处理、问题规模扩大、不可解实例识别以及成本和推理时间的权衡等方面的表现。

关键观点总结

关键观点1: o1模型在推理规划方面表现出色，但仍有局限性，如高昂的推理成本、缺乏正确性保证等。

o1-preview在PlanBench基准测试中表现出色，大幅领先其他模型，但仍未完全达到饱和状态。其在处理常规Blocksworld问题上的准确率较高，但在处理混淆问题和更大规模的问题上，性能有所下降。此外，o1模型在识别不可解实例方面仍存在困难，并伴随着假阴性率的增加。尽管o1模型在规划任务上超越了LLM，但其缺乏正确性保证，且推理成本高昂，使得其在某些场景下的应用受到限制。

关键观点2: LLM在推理规划任务上仍有优势，如提供等效表征之间的转换。

虽然LLM在推理规划任务上的表现不及o1模型，但它们仍具有一定的优势。例如，普通LLM擅长在不同格式之间转换问题，并能结合其他规划器（如Fast Downward）一起使用，以实现更高的效率和准确性。此外，LLM-Modulo系统提供了一种更安全、更便宜的方法，通过将较小、较快的LLM与可靠的验证器结合运行，只输出保证正确的解决方案。

关键观点3: o1模型的可解释性成为其一大问题，用户无法了解内部机制。

o1模型作为一个完全黑盒系统，其可解释性变得不可能，也降低了整个系统的信任度。当模型给出错误答案时，它有时会提供富有创意但毫无意义的解释，使得模型的决策过程更加难以理解和接受。

文章预览

新智元报道编辑：桃子好困【新智元导读】 LLM不会规划，大推理模型o1可以吗？ASU团队最新研究发现，o1-preview推理规划能力是所有模型之最，但仍未触及天花板。关键是，推理强，成本超高。 LLM依然不会规划，LRM可以吗？ OpenAI声称，草莓o1已经突破了自回归LLM常规限制，成为一种新型的「大推理模型」（LRM）。它能够基于强化学习，通过CoT多步推理。并且，这种推理过程的代价，是高昂的。来自ASU研究人员以此为契机，全面评估了当前LLM和新型LRM，在测试基准PlanBench上表现。论文地址：https://arxiv.org/pdf/2409.13373 PlanBench是他们在22年提出，评估大模型规划能力的测试基准。在最新测试中，研究人员发现，o1-preview表现出色，大幅领先其他模型，但也未完全通过PlanBench基准测试。其他LLM，在Mystery Blocksworld上的性能都不过5%。在基准上的结果 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博