文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal|GUI Agents, MLLM On(In-) Consistency Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents UGround 2024-10-07|OSU, Orby AI|⭐️ http://arxiv.org/abs/2410.05243v1 https://osu-nlp-group.github.io/UGround/ 概述 本研究提出了一种新的GUI代理框架,名为SeeAct-V, 旨在通过视觉观察和像素级操作来增强图形用户界面(GUI)代理的能力 。随着多模态大语言模型(MLLMs)的发展,GUI代理的功能得到了极大的提升,使其能够从受控的模拟环境转向复杂的现实世界应用。然而,现有的GUI代理主要依赖于文本基础的表示,如HTML或可访问性树,这些方法在准确性和效率上存在局限性。为了解决这些问题,本文倡导一种更接近人类的代理设计,使其能够完全通过视觉感知环境并进行操作。研究中,作
………………………………