文章预览
Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms 论文: https://arxiv.org/abs/2410.18967v1 Ferret-UI 2 是苹果研究团队最新发表的一款先进的多模态大型语言模型(MLLM),旨在实现跨多个平台的通用用户界面(UI)理解。 与前身 Ferret-UI 相比,Ferret-UI 2 通过引入对多平台类型的支持、通过自适应缩放实现的高分辨率感知能力,以及利用GPT4o和视觉提示生成的高级任务训练数据,显著提升了UI的感知和交互能力。这些创新使得Ferret-UI 2能够更准确地识别和理解不同设备和操作系统上的UI元素,从而执行复杂的用户中心交互。 Ferret-UI 2 在多个基准测试中展现了卓越的性能,不仅在各种UI理解任务上超越了前代模型,还证明了其强大的跨平台迁移能力。实验结果表明,无论是在iPhone、Android、iPad、Webpage还是AppleTV上,Ferret-UI 2都能有效地理解和响应用户意
………………………………