专栏名称: 老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

也看大模型操作手机实现机理及前置基础：苹果Ferret-UI、微软OmniParser屏幕理解实现思路

老刘说NLP · 公众号 · · 2024-10-28 11:39

文章预览

今天是2024年10月29日，星期一，北京，天气晴。最近这几天，让大模型具备控制电脑和手机的相关研究和应用好像很火，例如智谱的 AutoGLM《AutoWebGLM: A Large Language Model-based Web Navigating》 (https://github.com/THUDM/AutoWebGLMzarXiv,https://arxiv.org/pdf/2404.03648)，华为的LiMAC《Lightweight Neural App Control》(https://arxiv.org/pdf/2410.17883)，这些都是一种尝试，虽然离真实应用还是很远。但是，我们可以从技术角度来思考这类场景，设备端的交互，也就是在用户界面内实现感知和交互的无缝自动化，就需要一个复杂的系统，其需要具备一系列关键能力，不仅要能完全理解屏幕内容，还要能关注屏幕内的特定UI元素。此外，它应当有能力进一步将自然语言指令映射到给定UI内对应的动作、执行高级推理并提供其交互的屏幕的详细信息，并针对一个大的目标，给出逐步的交互方案。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

广东民生DV现场 · 热搜第一！4人处理完丧事后，意外身亡

昨天

醒目视频 · 正式发放！今年首轮消费补贴，种牙、矫正、补牙、美白…通通都能用！

3 天前

相信音乐Bin music · 告五人特别企划【又到天黑】直到天亮日志 EP6上线——黄家的卤味摊｜献给每一个努力不懈的人们

5 月前

中规知识产权认证 · 2025年2月创新管理师考试报名即将截止！抓住机遇，赢在未来！

3 周前

河北音乐广播 · 【1024·震惊】海关查获生腌响尾蛇！网友懵了：啊？你说生腌什么？

1 周前