文章预览
点击下方 卡片 ,关注“ CVer ”公众号 AI/CV重磅干货,第一时间送达 点击进入—> 【Mamba/多模态/扩散】交流群 添加微信:CVer5555,小助手会拉你进群! 扫描下方二维码,加入CVer学术星球 ! 可以获得最新顶会/顶刊上的论文idea 和 CV从入门到精通资料,及最前沿应用 !发论文/搞科研/涨薪,强烈推荐! 转载自:机器之心 | 编辑:陈萍 此次,苹果提出的多模态大语言模型(MLLM) Ferret-UI ,专门针对移动用户界面(UI)屏幕的理解进行了优化,其具备引用、定位和推理能力。 移动应用已经成为我们日常生活的一大重要组成部分。使用移动应用时,我们通常是用眼睛看,用手执行对应操作。如果能将这个感知和交互过程自动化,用户也许能获得更加轻松的使用体验。此外,这还能助益手机辅助功能、多步 UI 导航、应用测试、可用性研究等。 为了在用户
………………………………