专栏名称: CraftWarmAI

智能聊天机器人（Chatbots）是交互的新趋势，Google、Facebook、Microsoft、百度、阿里等众多公司已加入此阵列，就等你了！我们会定期发布聊天机器人的各种信息，其中使用的机器学习/深度学习技术、产品、分享活动等等

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

ShowUI：当前最好的 UI Agent 开源模型？

CraftWarmAI · 公众号 · 机器人 · 2024-12-05 20:06

主要观点总结

本文主要介绍了Show Lab和微软推出的开源UI Agent模型ShowUI。该模型在中文APP定位和导航能力上表现出色，具有一些创新特性，包括UI-Guided Visual Token Selection、Interleaved Vision-Language-Action Streaming等。文章还介绍了模型的训练数据构建方法和微调过程。

关键观点总结

关键观点1: ShowUI模型特点

ShowUI是一个开源的UI Agent模型，基于Qwen2-VL-2B模型进行微调，模型和代码都开源。它在中文APP上的效果表现出色，是当前UI Agent开源模型中最好的之一。

关键观点2: 论文贡献

论文主要包括三个大的贡献：UI-Guided Visual Token Selection、Interleaved Vision-Language-Action Streaming和Small-scale High quality GUI Instruction-following Datasets。

关键观点3: 训练方法

训练时使用了两种组织不同训练数据的方法：Action-Visual和Action-Query，结合使用效果更佳。预训练阶段使用了GUIAct的Navigation数据，以及包含三类数据的Grounding数据。

关键观点4: 数据抽样

数据平衡抽样非常重要，带来了精度的提升。控制好抽样比例，可以在预训练中加入navigation数据而不降低模型的grounding能力。

关键观点5: 模型微调

模型在AITW数据集上微调后效果更佳，使用历史的截图可以提高模型效果。

文章预览

Show Lab 和微软推出 ShowUI ，这是一个刚刚开源的 UI Agent 模型，在中文 APP 定位和导航能力上表现出色。通过创新的视觉 token 选择和独特的训练数据构建方法，该模型在有限的训练数据下实现了非常棒的性能。 Home [1] | GitHub [2] | Twitter [3] | Youtube [4] | Bilibili [5] 目录：本文介绍下最近刚刚开源的 UI Agent 模型 ShowUI 。 ShowUI 是在 Qwen2-VL-2B 基础上做的 Lora 微调，模型和代码都开源。 ShowUI 在中文 App 上的效果应该是当前 UI Agent 开源模型中最好的👍 🔥🔥。 ShowUI 的一些信息：论文： ShowUI: One Vision-Language-Action Model for GUI Visual Agent [6] Github：https://github.com/showlab/ShowUI 视频介绍： UI Agent 论文分享：ShowUI-当前最好的 UI Agents 开源模型，还适用中文 APP？ [7] 接下来介绍 ShowUI 论文中提到的一些关键信息。论文详解论文主要包括 3 个大的贡献： 1. UI-Guid ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博