主要观点总结
文章介绍了LLM和LRM在推理规划任务上的表现,重点评估了o1模型在PlanBench基准测试上的性能,包括其在规划能力、混淆问题处理、问题规模扩大、不可解实例识别以及成本和推理时间的权衡等方面的表现。
关键观点总结
关键观点1: o1模型在推理规划方面表现出色,但仍有局限性,如高昂的推理成本、缺乏正确性保证等。
o1-preview在PlanBench基准测试中表现出色,大幅领先其他模型,但仍未完全达到饱和状态。其在处理常规Blocksworld问题上的准确率较高,但在处理混淆问题和更大规模的问题上,性能有所下降。此外,o1模型在识别不可解实例方面仍存在困难,并伴随着假阴性率的增加。尽管o1模型在规划任务上超越了LLM,但其缺乏正确性保证,且推理成本高昂,使得其在某些场景下的应用受到限制。
关键观点2: LLM在推理规划任务上仍有优势,如提供等效表征之间的转换。
虽然LLM在推理规划任务上的表现不及o1模型,但它们仍具有一定的优势。例如,普通LLM擅长在不同格式之间转换问题,并能结合其他规划器(如Fast Downward)一起使用,以实现更高的效率和准确性。此外,LLM-Modulo系统提供了一种更安全、更便宜的方法,通过将较小、较快的LLM与可靠的验证器结合运行,只输出保证正确的解决方案。
关键观点3: o1模型的可解释性成为其一大问题,用户无法了解内部机制。
o1模型作为一个完全黑盒系统,其可解释性变得不可能,也降低了整个系统的信任度。当模型给出错误答案时,它有时会提供富有创意但毫无意义的解释,使得模型的决策过程更加难以理解和接受。
文章预览
新智元报道 编辑:桃子 好困 【新智元导读】 LLM不会规划,大推理模型o1可以吗?ASU团队最新研究发现,o1-preview推理规划能力是所有模型之最,但仍未触及天花板。关键是,推理强,成本超高。 LLM依然不会规划,LRM可以吗? OpenAI声称,草莓o1已经突破了自回归LLM常规限制,成为一种新型的「大推理模型」(LRM)。 它能够基于强化学习,通过CoT多步推理。并且,这种推理过程的代价,是高昂的。 来自ASU研究人员以此为契机,全面评估了当前LLM和新型LRM,在测试基准PlanBench上表现。 论文地址:https://arxiv.org/pdf/2409.13373 PlanBench是他们在22年提出,评估大模型规划能力的测试基准。 在最新测试中,研究人员发现,o1-preview表现出色,大幅领先其他模型,但也未完全通过PlanBench基准测试。 其他LLM,在Mystery Blocksworld上的性能都不过5%。在基准上的结果
………………………………