注册登录

专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

电商行业 · 雷军大爆发，小米市值打破历史记录 · 9 小时前

众视AsiaOTT · 持续发力 ... · 17 小时前

说财猫 · 是谁逼得刘强东，又做外卖又干滴滴啊？ · 昨天

江玉燕 · 【Shopee】长期未登录会如何？ · 昨天

江玉燕 · 【Shopee】长期未登录会如何？ · 昨天

电子商务研究中心 · 2025直播电商税务合规茶话会召开在即抓紧报名！ · 2 天前

今天看啥 › 专栏 › FightingCV

小米提出MobileVLM：一种用于增强UI内部和跨UI理解的视觉语言模型

FightingCV · 公众号 · · 2024-10-02 11:00

文章预览

摘要近年来，基于视觉语言模型（VLM）的移动人工智能代理越来越受到关注。这些工作通常利用在通用领域数据上预训练的VLM作为基础，并在基于指令的移动数据集上对其进行微调。然而，通用预训练数据中移动UI的比例非常低。此外，通用预训练任务并未特别考虑移动UI的特性。因此，直接将这些预训练模型应用于移动UI指令微调将无法获得期望的性能。在本文中，我们提出了一种用于中文UI操作的MobileVLM。在通用预训练模型的基础上，我们实施了两个额外的预训练阶段，并通过四个特定任务来增强UI内部和跨UI理解。此外，我们从头开始构建了一个大型中文移动UI语料库，名为Mobile3M，以弥补相关数据的不足。除300万个静态UI页面外，它还包含由真实世界UI转换动作形成的有向图结构。实验结果表明，MobileVLM在内部测试集和公开 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

电商行业 · 雷军大爆发，小米市值打破历史记录

9 小时前

众视AsiaOTT · 持续发力抖音电商2024年累计清理“水军”账号160万个

17 小时前

说财猫 · 是谁逼得刘强东，又做外卖又干滴滴啊？

昨天

江玉燕 · 【Shopee】长期未登录会如何？

昨天

江玉燕 · 【Shopee】长期未登录会如何？

昨天

电子商务研究中心 · 2025直播电商税务合规茶话会召开在即抓紧报名！

2 天前

每日学英语 · 搞笑广告：这个重要发明，让我们回归无手机的真情时代！

8 月前

工业能源圈 · 去年四大城燃企业温室气体排放总量上升，昆仑燃气居首 | ESG信披洞察

8 月前

单细胞测序网 · Nat Immun | 人外周血/扁桃体/肺脏/肠粘膜ILCs/NK单细胞转录图谱揭示ILC1跨组织特异性与独特NK亚型

7 月前

璞缇客精品酒店 · 挖到一颗四川神奇“小金果”！水润清甜又解暑，今年很难买到。

7 月前

气象北京 · 通州、密云、怀柔区气象台发布大风蓝色预警信号关注更多分区预警信息看这里

6 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号