FlowBench：重新审视和评估基于 LLM 智体的工作流引导规划

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-07-01 01:29

文章预览

24年6月来自浙江大学和阿里的论文“FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents”。基于 LLM 智体已成为一种有前途的工具，它们被设计成通过迭代规划和行动来完成复杂任务。然而，当缺乏专业知识密集型任务的具体知识时，这些智体容易受到不良规划幻觉的影响。为了解决这个问题，初步尝试通过整合外部工作流相关知识来提高规划可靠性。尽管前景光明，但这些注入的知识大多杂乱无章、格式各异，缺乏严格的形式化和全面的比较。受此启发，将不同格式的工作流知识形式化，建立第一个工作流引导的规划基准 FlowBench。FlowBench 涵盖了 6 个领域的 51 种不同场景，知识以多种格式呈现。为了在 FlowBench 上评估不同的 LLM，设计一个多层次的评估框架。如图是工作流引导智体规划的流程。向智体提供各种格式的工作流知识， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博