专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
今天看啥  ›  专栏  ›  AINLP

UI Agents(智能体)技术综述

AINLP  · 公众号  ·  · 2024-11-11 10:10
    

文章预览

一、UI Agents技术概述 UI Agents 技术 利用大模型技术(VLM / LLM)实现智能体对手机或电脑的自动操作,模拟人类行为完成指定任务,涵盖 Web GUI 和 Mobile GUI 等多种应用场景,甚至与 Embodied Navigation 中的 Vision Language Navigation(VLN)任务也有相似之处。 UI Agents的定义与示例 UI Agents 的核心在于智能体能够模拟人类操作,自动执行任务。例如,当我们下达 “微信给小明发送一条消息:‘吃了吗?’” 这样的指令时,UI Agents 会像人类一样理解任务,然后在手机或电脑上执行一系列操作,如打开微信、找到小明的聊天窗口、输入消息并发送。这一过程涉及到对UI界面的感知、理解以及精确操作,其本质是一个  Partially Observable Markov Decision Process (POMDP)  问题,智能体无法观察到所有的状态信息,需要根据当前可观察到的状态(如UI截图和对应的XML)做出决策, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览