文章预览
OmniParser for Pure Vision Based GUI Agent 介绍: https://microsoft.github.io/OmniParser/ 代码: https://github.com/microsoft/OmniParser 论文: https://arxiv.org/abs/2408.00203 OmniParser 是由微软研究院提出的一个创新性工具,旨在通过解析用户界面截图来增强基于视觉的图形用户界面(GUI)代理的性能。 该工具通过识别用户界面中的可交互图标,并理解截图中各种元素的语义,解决了以往多模态模型在跨操作系统和应用程序中应用时的局限性。OmniParser 通过结合微调后的检测模型和描述模型,将截图转换成结构化的元素,显著提升了GPT-4V模型在执行各种用户任务时的准确性和鲁棒性。 OmniParser 的特点在于其能够处理来自不同平台和应用程序的截图,而无需依赖于额外的信息,如HTML或视图层次结构。它通过一个检测模型来识别屏幕上的可交互区域,并使用一个描述模型来提取这些
………………………………