专栏名称: PaperAgent
日更,解读AI前沿技术热点Paper
今天看啥  ›  专栏  ›  PaperAgent

一篇GUI Agent技术最新全面综述

PaperAgent  · 公众号  ·  · 2024-11-14 15:14

文章预览

基础模型,特别是大型语言模型(LLMs)和多模态大型语言模型(MLLMs),使得 Agent 能够执行复杂任务。这些智能体利用 (M)LLMs 处理和解释 GUI 的能力,通过模拟人类交互(如点击和键入)自主执行用户指令。 GUI Agent领域中基础模型增长趋势的示意图 基于(M)LLM的GUI Agent 框架 Agent的目标是自动控制设备以完成任务。它们通常接收用户查询和设备UI状态作为输入,并提供一系列类似人类的操作来完成任务。GUI Agent的构建包括五个部分: GUI感知器、任务规划器、决策者、记忆检索器和执行器 。 基于(M)LLM的GUI Agent的通用框架 GUI代理的构建包括五个主要部分: GUI感知器 :准确解释用户输入和检测设备UI的变化。 任务规划器 :将复杂任务分解为更小的步骤,并采用链式思维(CoT)方法。 决策者 :基于当前环境和任务需求,提供控制设备的下一步 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章
人物  ·  余世存 嘘寒人间
6 天前