专栏名称: CraftWarmAI
智能聊天机器人(Chatbots)是交互的新趋势,Google、Facebook、Microsoft、百度、阿里等众多公司已加入此阵列,就等你了!我们会定期发布聊天机器人的各种信息,其中使用的机器学习/深度学习技术、产品、分享活动等等
目录
相关文章推荐
今天看啥  ›  专栏  ›  CraftWarmAI

UI-TARS:利用长期记忆和反思调整迭代优化

CraftWarmAI  · 公众号  · 机器人  · 2025-01-24 18:18
    

文章预览

  Home [1]  |  GitHub [2]  |  Twitter [3]  |  Youtube [4]  |  Bilibili [5] 本文介绍字节跳动刚刚发布的 UI Agent 工作  UI-TARS: Pioneering Automated GUI Interaction with Native Agents [6]  。  UI-TARS  基于 Qwen2-VL 微调,通过大量 grounding 和 navigation 数据,经过三阶段训练,利用特定方法迭代优化,以远超多数工作的数据训练规模,实现了对中英文图片和指令的良好支持。 UI-TARS 的模型(2B、7B、72B)开源,但数据和训练代码都不开源。 一些相关链接: •  https://github.com/bytedance/UI-TARS [7] • https://github.com/bytedance/UI-TARS-desktop •  Demo : https://huggingface.co/spaces/Aheader/gui_test_app UI-TARS  整体框架就是用一个 VLM 端到端的输出 Thought 和 具体动作。模型也是在  Qwen2-VL  的基础上进行微调得到的,不过他们训练的数据很大,grounding 数据量 20~40M 这种量级,navigation 数据量 300K 这种量级。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览