文章预览
Home [1] | GitHub [2] | Twitter [3] | Youtube [4] | Bilibili [5] 本文介绍 来自 HKU & Salesforce 的 Aguvis 。如我之前所说, 这篇论文(数据、代码都会开源)至少值 2 个算法工程师 1 个月的工资 。论文里面有很多细节都值得深挖,属于外行看热闹,内行看门道的那种。 本文是视频 UI Agent 论文分享:Aguvis-来自 HKU & Salesforce 的大一统训练数据和训练框架 [6] 对应的文字版,建议与视频对照着看。 Aguvis 相关资料: [2412.04454] Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [7] , HKU & Salesforce https://aguvis-project.github.io [8] 【视频分享】 UI Agent 论文分享:Aguvis-来自 HKU & Salesforce 的大一统训练数据和训练框架 [9] Aguvis 这个词应该是作者造的,没查到什么意思。发现这个工作的作者跟 OS-Copilot [10] 还有耦合,而 OS-Copilot [11] 跟 OS-Atlas [12] 是相同的
………………………………