文章预览
Home [1] | GitHub [2] | Twitter [3] | Youtube [4] | Bilibili [5] 本文介绍字节跳动刚刚发布的 UI Agent 工作 UI-TARS: Pioneering Automated GUI Interaction with Native Agents [6] 。 UI-TARS 基于 Qwen2-VL 微调,通过大量 grounding 和 navigation 数据,经过三阶段训练,利用特定方法迭代优化,以远超多数工作的数据训练规模,实现了对中英文图片和指令的良好支持。 UI-TARS 的模型(2B、7B、72B)开源,但数据和训练代码都不开源。 一些相关链接: • https://github.com/bytedance/UI-TARS [7] • https://github.com/bytedance/UI-TARS-desktop • Demo : https://huggingface.co/spaces/Aheader/gui_test_app UI-TARS 整体框架就是用一个 VLM 端到端的输出 Thought 和 具体动作。模型也是在 Qwen2-VL 的基础上进行微调得到的,不过他们训练的数据很大,grounding 数据量 20~40M 这种量级,navigation 数据量 300K 这种量级。
………………………………