专栏名称: 方方的算法花园
方方爱分享
目录
相关文章推荐
今天看啥  ›  专栏  ›  方方的算法花园

Aguvis:纯视觉 GUI agent 训练框架

方方的算法花园  · 公众号  ·  · 2025-02-07 17:13
    

文章预览

点击蓝字 关注我们 NICE DAY  0 论文概况 1. 论文名称 : Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction  《AGUVIS:用于自主图形用户界面交互的统一纯视觉智能体》 2. 论文链接: https://arxiv.org/pdf/2412.04454 3. 论文作者所在机构 :香港大学、Salesforce Research 4.Github : https://aguvis-project.github.io/ 5. 一句话概括 :论文提出 AGUVIS 统一纯视觉框架,以解决图形用户界面(GUI)交互自动化难题,它基于图像观察与自然语言指令匹配视觉元素,统一动作空间,集成规划推理能力,并构建大规模数据集训练模型,在离线和在线场景实验中性能超越现有方法,且将开源所有数据、模型和训练方法推动研究发展。 1 研究背景 图形用户界面(GUI )是人机交互的基石,通过自主agent实现 GUI 操作自动化,能大幅提高生产力,为先进 AI 系统与数字环境交互和学习奠定基础。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览