专栏名称: ADFeed
🧠 AI DevFeed:AI 技术研习与产业观察。
今天看啥  ›  专栏  ›  ADFeed

OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器

ADFeed  · 公众号  ·  · 2024-11-01 11:15
    

文章预览

OmniParser for Pure Vision Based GUI Agent 介绍: https://microsoft.github.io/OmniParser/ 代码: https://github.com/microsoft/OmniParser 论文: https://arxiv.org/abs/2408.00203 OmniParser  是由微软研究院提出的一个创新性工具,旨在通过解析用户界面截图来增强基于视觉的图形用户界面(GUI)代理的性能。 该工具通过识别用户界面中的可交互图标,并理解截图中各种元素的语义,解决了以往多模态模型在跨操作系统和应用程序中应用时的局限性。OmniParser 通过结合微调后的检测模型和描述模型,将截图转换成结构化的元素,显著提升了GPT-4V模型在执行各种用户任务时的准确性和鲁棒性。 OmniParser 的特点在于其能够处理来自不同平台和应用程序的截图,而无需依赖于额外的信息,如HTML或视图层次结构。它通过一个检测模型来识别屏幕上的可交互区域,并使用一个描述模型来提取这些 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览