文章预览
摘要 近年来,基于视觉语言模型(VLM)的移动人工智能代理越来越受到关注。 这些工作通常利用在通用领域数据上预训练的VLM作为基础,并在基于指令的移动数据集上对其进行微调。 然而,通用预训练数据中移动UI的比例非常低。 此外,通用预训练任务并未特别考虑移动UI的特性。 因此,直接将这些预训练模型应用于移动UI指令微调将无法获得期望的性能。 在本文中,我们提出了一种用于中文UI操作的MobileVLM。 在通用预训练模型的基础上,我们实施了两个额外的预训练阶段,并通过四个特定任务来增强UI内部和跨UI理解。 此外,我们从头开始构建了一个大型中文移动UI语料库,名为Mobile3M,以弥补相关数据的不足。 除300万个静态UI页面外,它还包含由真实世界UI转换动作形成的有向图结构。 实验结果表明,MobileVLM在内部测试集和公开
………………………………