OmniParser：微软重磅打造的提升GUI代理性能的屏幕解析利器

ADFeed · 公众号 · · 2024-11-01 11:15

文章预览

OmniParser for Pure Vision Based GUI Agent 介绍： https://microsoft.github.io/OmniParser/ 代码： https://github.com/microsoft/OmniParser 论文： https://arxiv.org/abs/2408.00203 OmniParser 是由微软研究院提出的一个创新性工具，旨在通过解析用户界面截图来增强基于视觉的图形用户界面（GUI）代理的性能。该工具通过识别用户界面中的可交互图标，并理解截图中各种元素的语义，解决了以往多模态模型在跨操作系统和应用程序中应用时的局限性。OmniParser 通过结合微调后的检测模型和描述模型，将截图转换成结构化的元素，显著提升了GPT-4V模型在执行各种用户任务时的准确性和鲁棒性。 OmniParser 的特点在于其能够处理来自不同平台和应用程序的截图，而无需依赖于额外的信息，如HTML或视图层次结构。它通过一个检测模型来识别屏幕上的可交互区域，并使用一个描述模型来提取这些 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博