今天看啥  ›  专栏  ›  AGI Hunt

OmniParser:微软新UI解析器完胜GPT-4V,已经开源!

AGI Hunt  · 公众号  ·  · 2024-10-26 00:18
    

文章预览

微软开源的 OmniParser的UI解析器居然完胜了GPT-4V! 微软放出了一个名为OmniParser的UI解析器,而且还是开源的!最厉害的是,它在屏幕理解基准测试中居然完胜了GPT-4V! 见:https://huggingface.co/microsoft/OmniParser 那么,这个OmniParser到底有什么过人之处呢? OmniParser:解剖UI的利器 OmniParser是一个通用的屏幕解析工具,它能够将UI截图解释并转换为结构化格式。这听起来可能有点抽象,但其实就是让机器能够"看懂"屏幕上的各种元素。 比如说,它能识别出哪些区域是可以点击的,哪些图标代表什么功能。这对于开发自动化工具或者AI助手来说,简直就是一个神器! 最关键的是,OmniParser是开源的,而且采用了MIT许可证。 这意味着,任何人都可以免费使用、修改甚至再分发这个工具。对于开发者和研究人员来说,这无疑是一个重大利好。 训练数据的关键在细节 O ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览