文章预览
今天是2024年10月29日,星期一,北京,天气晴。 最近这几天,让大模型具备控制电脑和手机的相关研究和应用好像很火,例如智谱的 AutoGLM《AutoWebGLM: A Large Language Model-based Web Navigating》 (https://github.com/THUDM/AutoWebGLMzarXiv,https://arxiv.org/pdf/2404.03648),华为的LiMAC《Lightweight Neural App Control》(https://arxiv.org/pdf/2410.17883),这些都是一种尝试,虽然离真实应用还是很远。 但是,我们可以从技术角度来思考这类场景, 设备端的交互,也就是在用户界面内实现感知和交互的无缝自动化,就需要一个复杂的系统,其需要具备一系列关键能力,不仅要能完全理解屏幕内容,还要能关注屏幕内的特定UI元素。此外,它应当有能力进一步将自然语言指令映射到给定UI内对应的动作、执行高级推理并提供其交互的屏幕的详细信息,并针对一个大的目标,给出逐步的交互方案。
………………………………