文章预览
一、UI Agents技术概述 UI Agents 技术 利用大模型技术(VLM / LLM)实现智能体对手机或电脑的自动操作,模拟人类行为完成指定任务,涵盖 Web GUI 和 Mobile GUI 等多种应用场景,甚至与 Embodied Navigation 中的 Vision Language Navigation(VLN)任务也有相似之处。 UI Agents的定义与示例 UI Agents 的核心在于智能体能够模拟人类操作,自动执行任务。例如,当我们下达 “微信给小明发送一条消息:‘吃了吗?’” 这样的指令时,UI Agents 会像人类一样理解任务,然后在手机或电脑上执行一系列操作,如打开微信、找到小明的聊天窗口、输入消息并发送。这一过程涉及到对UI界面的感知、理解以及精确操作,其本质是一个 Partially Observable Markov Decision Process (POMDP) 问题,智能体无法观察到所有的状态信息,需要根据当前可观察到的状态(如UI截图和对应的XML)做出决策,
………………………………