文章预览
点击蓝字 关注我们 NICE DAY 0 论文概况 1. 论文名称 : Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction 《AGUVIS:用于自主图形用户界面交互的统一纯视觉智能体》 2. 论文链接: https://arxiv.org/pdf/2412.04454 3. 论文作者所在机构 :香港大学、Salesforce Research 4.Github : https://aguvis-project.github.io/ 5. 一句话概括 :论文提出 AGUVIS 统一纯视觉框架,以解决图形用户界面(GUI)交互自动化难题,它基于图像观察与自然语言指令匹配视觉元素,统一动作空间,集成规划推理能力,并构建大规模数据集训练模型,在离线和在线场景实验中性能超越现有方法,且将开源所有数据、模型和训练方法推动研究发展。 1 研究背景 图形用户界面(GUI )是人机交互的基石,通过自主agent实现 GUI 操作自动化,能大幅提高生产力,为先进 AI 系统与数字环境交互和学习奠定基础。
………………………………