专栏名称: CraftWarmAI

智能聊天机器人（Chatbots）是交互的新趋势，Google、Facebook、Microsoft、百度、阿里等众多公司已加入此阵列，就等你了！我们会定期发布聊天机器人的各种信息，其中使用的机器学习/深度学习技术、产品、分享活动等等

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

UI-TARS：利用长期记忆和反思调整迭代优化

CraftWarmAI · 公众号 · 机器人 · 2025-01-24 18:18

文章预览

Home [1] | GitHub [2] | Twitter [3] | Youtube [4] | Bilibili [5] 本文介绍字节跳动刚刚发布的 UI Agent 工作 UI-TARS: Pioneering Automated GUI Interaction with Native Agents [6] 。 UI-TARS 基于 Qwen2-VL 微调，通过大量 grounding 和 navigation 数据，经过三阶段训练，利用特定方法迭代优化，以远超多数工作的数据训练规模，实现了对中英文图片和指令的良好支持。 UI-TARS 的模型（2B、7B、72B）开源，但数据和训练代码都不开源。一些相关链接： • https://github.com/bytedance/UI-TARS [7] • https://github.com/bytedance/UI-TARS-desktop • Demo : https://huggingface.co/spaces/Aheader/gui_test_app UI-TARS 整体框架就是用一个 VLM 端到端的输出 Thought 和具体动作。模型也是在 Qwen2-VL 的基础上进行微调得到的，不过他们训练的数据很大，grounding 数据量 20～40M 这种量级，navigation 数据量 300K 这种量级。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博