今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

FlowBench:重新审视和评估基于 LLM 智体的工作流引导规划

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-07-01 01:29
    

文章预览

24年6月来自浙江大学和阿里的论文“FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents”。 基于 LLM 智体已成为一种有前途的工具,它们被设计成通过迭代规划和行动来完成复杂任务。然而,当缺乏专业知识密集型任务的具体知识时,这些智体容易受到不良规划幻觉的影响。为了解决这个问题,初步尝试通过整合外部工作流相关知识来提高规划可靠性。尽管前景光明,但这些注入的知识大多杂乱无章、格式各异,缺乏严格的形式化和全面的比较。 受此启发,将不同格式的工作流知识形式化,建立第一个工作流引导的规划基准 FlowBench。FlowBench 涵盖了 6 个领域的 51 种不同场景,知识以多种格式呈现。为了在 FlowBench 上评估不同的 LLM,设计一个多层次的评估框架。 如图是工作流引导智体规划的流程。向智体提供各种格式的工作流知识, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览