专栏名称: AIGC Research
AIGC Research|AI for Creativity Plan (AI4C Plan)|from ShanghaiTech University|致力于探索AIGC赋能创意智能|保持卓越学术品位和极致艺术追求
今天看啥  ›  专栏  ›  AIGC Research

207-B1|GUI智能体,MLLM的输入输出一致性,大型视觉-语言模型视觉感知系列|Tue

AIGC Research  · 公众号  ·  · 2024-10-12 22:00

文章预览

AIGC   Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal|GUI Agents, MLLM On(In-) Consistency Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents   UGround 2024-10-07|OSU, Orby AI|⭐️ http://arxiv.org/abs/2410.05243v1 https://osu-nlp-group.github.io/UGround/ 概述 本研究提出了一种新的GUI代理框架,名为SeeAct-V, 旨在通过视觉观察和像素级操作来增强图形用户界面(GUI)代理的能力 。随着多模态大语言模型(MLLMs)的发展,GUI代理的功能得到了极大的提升,使其能够从受控的模拟环境转向复杂的现实世界应用。然而,现有的GUI代理主要依赖于文本基础的表示,如HTML或可访问性树,这些方法在准确性和效率上存在局限性。为了解决这些问题,本文倡导一种更接近人类的代理设计,使其能够完全通过视觉感知环境并进行操作。研究中,作 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览