专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

小米提出MobileVLM:一种用于增强UI内部和跨UI理解的视觉语言模型

FightingCV  · 公众号  ·  · 2024-10-02 11:00

文章预览

摘要 近年来,基于视觉语言模型(VLM)的移动人工智能代理越来越受到关注。  这些工作通常利用在通用领域数据上预训练的VLM作为基础,并在基于指令的移动数据集上对其进行微调。  然而,通用预训练数据中移动UI的比例非常低。  此外,通用预训练任务并未特别考虑移动UI的特性。  因此,直接将这些预训练模型应用于移动UI指令微调将无法获得期望的性能。  在本文中,我们提出了一种用于中文UI操作的MobileVLM。  在通用预训练模型的基础上,我们实施了两个额外的预训练阶段,并通过四个特定任务来增强UI内部和跨UI理解。  此外,我们从头开始构建了一个大型中文移动UI语料库,名为Mobile3M,以弥补相关数据的不足。  除300万个静态UI页面外,它还包含由真实世界UI转换动作形成的有向图结构。  实验结果表明,MobileVLM在内部测试集和公开 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览