文章预览
大家好,我是HxShine 今天分享一篇来自加利福尼亚大学的文章,标题为《 Reasoning with Language Model is Planning with World Model 》。尽管LLMs已经展现出了显著的推理能力,使用COT等方法效果更佳,但 LLM在生成plan,处理复杂的数学或逻辑推理等复杂任务上都还表现不佳 。这些困难源于 LLMs缺乏内部世界模型来预测世界状态 (例如环境状态、中间变量值)以及模拟动作的长期结果。这篇论文提出了一个新的框架—— 通过规划进行推理(Reasoning via Planning, RAP) ,旨在解决大型语言模型(Large Language Models, LLMs)在复杂推理任务中的表现不足的问题。 该方法通过结合世界模型(预测未来状态),结合MCTS蒙特卡洛算法(高效的挖掘最有价值的解决方案),以及Reward模型(给不同任务设立不同的reward模型,提供反馈),来显著提升复杂推理能力。 实验表明,本文
………………………………