文章预览
由语言模型(LMs)驱动的自主智能体在执行诸如网络自动化的决策任务方面展现出了潜力。然而,一个关键的限制仍然存在:LMs主要针对自然语言理解和生成进行优化,在尝试解决现实计算机任务时,在多步推理、规划和使用环境反馈方面存在困难。为了解决这个问题,我们为LM智能体提出了一种推理时搜索算法,以在交互式网络环境中明确执行探索和多步规划。我们的方法是一种在实际环境空间内运行的最佳优先树搜索形式,并且与大多数现有的最先进智能体兼容。这是首个在现实网络任务上显示出有效性的语言模型智能体的树搜索算法。在具有挑战性的VisualWebArena基准测试中,将我们的搜索算法应用于GPT-4o智能体,与没有搜索的同一基线相比,成功率相对提高了39.7%,达到了26.4%的最新成功率。在WebArena上,搜索同样带来了28.0%的相对改进,达到
………………………………