主要观点总结
文章介绍了OpenAI的模型o1,一种新型的大推理模型(LRM)。它在计划推理任务上表现出色,但存在局限性。文章对比了LLM和LRM在测试基准上的表现,并讨论了o1模型的优点和缺点。
关键观点总结
关键观点1: o1模型是一种新型的LRM,基于强化学习进行多步推理,突破了自回归LLM的限制。
o1模型能够基于强化学习进行推理,这种推理过程的代价是高昂的。在测试基准PlanBench上,o1-preview表现出色,大幅领先其他模型。然而,它在更复杂的规划问题上的性能还有待提高。
关键观点2: LLM和LRM在规划任务上的表现存在差异。
普通LLM在规划任务上的表现较弱,而o1模型则取得了一定的进展。然而,o1模型在解决长问题和无解问题上的表现并不具有泛化性和稳健性。
关键观点3: o1模型存在成本和效率的权衡问题。
o1模型的推理成本高昂,而且缺乏正确性保证。此外,模型的推理时间也是需要考虑的因素。相比之下,传统的规划器Fast Downward在成本、时间和保证方面更具优势。
关键观点4: o1模型的可解释性是一个问题。
o1模型作为一个黑盒系统,其可解释性较差,降低了系统的信任度。此外,模型有时还会提供富有创意但毫无意义的解释。
文章预览
LLM依然不会规划,LRM可以吗? OpenAI声称,草莓o1已经突破了自回归LLM常规限制,成为一种新型的「大推理模型」(LRM)。 它能够基于强化学习,通过CoT多步推理。并且,这种推理过程的代价,是高昂的。 来自ASU研究人员以此为契机,全面评估了当前LLM和新型LRM,在测试基准PlanBench上表现。 论文地址:https://arxiv.org/pdf/2409.13373 PlanBench是他们在22年提出,评估大模型规划能力的测试基准。 在最新测试中,研究人员发现,o1-preview表现出色,大幅领先其他模型,但也未完全通过PlanBench基准测试。 其他LLM,在Mystery Blocksworld上的性能都不过5%。在基准上的结果曲线,和X轴几乎融合。 足见,这些大模型的规划能力,非常地弱。 不过,作者指出,规划推理越长,o1-preview的准确率便会低于25%。 另外一个值得注意的点是,即便o1-preview超越了多数近似检索的普通LL
………………………………