一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

大模型图形用户界面操作智能体(GUI Agents)综述:数据、架构、分类、应用、挑战

深度学习自然语言处理  · 公众号  ·  · 2024-11-17 13:08
    

文章预览

来自:旺知识 最近在基础模型,特别是大型语言模型(LLMs)和多模态大型语言模型(MLLMs)方面的进步,使得智能体能够执行复杂任务。通过利用(M)LLMs处理和解释图形用户界面(GUIs)的能力,这些智能体可以模拟人类交互,如点击和打字,自主执行用户指令。本调查整合了近期关于(M)LLM基础GUI智能体的研究,突出了数据、框架和应用中的关键创新。我们首先讨论代表性的数据集和基准测试。接下来,我们总结了一个统一框架,涵盖了先前研究中使用的基本组件,并附有分类。此外,我们探索了(M)LLM基础GUI智能体的商业应用。基于现有工作,我们识别了几个关键挑战,并提出了未来的研究方向。我们希望本文能激发(M)LLM基础GUI智能体领域的进一步发展。 我们翻译解读最新论文:基于基础模型的图形用户界面智能体 ,文末有论文信息。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览