文章预览
大语言模型(LLMs)在需要复杂推理的自然语言任务中展现出了显著的能力,然而它们在交互式环境中进行多步骤推理的应用仍然是一个巨大的挑战。在动态环境中,例如网页导航,传统的静态数据集上的监督预训练无法充分实现自主智能体所需的复杂决策能力。通过在专家演示上进行监督微调的先前尝试,通常受到累积错误和有限探索数据的影响,导致次优策略结果。为了克服这些挑战,我们提出了一个框架,该框架结合了引导蒙特卡洛树搜索(MCTS)和自我批评机制,并使用直接偏好优化(DPO)算法的离线变体对智能体交互进行迭代微调。我们的方法允许LLM智能体从成功和不成功的轨迹中有效学习,从而提高它们在复杂多步骤推理任务中的泛化能力。我们在WebShop环境中验证了我们的方法,这是一个模拟的电子商务平台—当配备在线搜索能力时,
………………………………