专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

也看大模型操作手机实现机理及前置基础:苹果Ferret-UI、微软OmniParser屏幕理解实现思路

老刘说NLP  · 公众号  ·  · 2024-10-28 11:39
    

文章预览

今天是2024年10月29日,星期一,北京,天气晴。 最近这几天,让大模型具备控制电脑和手机的相关研究和应用好像很火,例如智谱的 AutoGLM《AutoWebGLM: A Large Language Model-based Web Navigating》 (https://github.com/THUDM/AutoWebGLMzarXiv,https://arxiv.org/pdf/2404.03648),华为的LiMAC《Lightweight Neural App Control》(https://arxiv.org/pdf/2410.17883),这些都是一种尝试,虽然离真实应用还是很远。 但是,我们可以从技术角度来思考这类场景, 设备端的交互,也就是在用户界面内实现感知和交互的无缝自动化,就需要一个复杂的系统,其需要具备一系列关键能力,不仅要能完全理解屏幕内容,还要能关注屏幕内的特定UI元素。此外,它应当有能力进一步将自然语言指令映射到给定UI内对应的动作、执行高级推理并提供其交互的屏幕的详细信息,并针对一个大的目标,给出逐步的交互方案。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览