主要观点总结
本文主要介绍了智谱Agent在手机和电脑端的功能特点、技术实现以及未来发展方向。包括自动操作超过50步、跨App操作、记忆追踪任务进度和环境状态、网页助理WebAgent、GLM-PC推广到电脑端等功能。文章还讨论了语言动作模型LAM、多模态方向、决策的搜索技术MCTS等未来发展方向,并提出了如何高效扩展GUI Agent的基准测试和隐私与数据合规等问题。
关键观点总结
关键观点1: 智谱Agent的功能特点
智谱Agent支持自动操作超过50步,涉及多步、事件循环跨App操作。通过App Links实现应用之间的跳转,涉及更多的屏幕上下文信息。记忆追踪任务进度和环境状态,保持记忆的一致性,需要多代理。
关键观点2: WebAgent的技术实现
WebAgent学习了WebGLM-QA数据集的知识,通过强化学习理解操作和结果的关联,更新的数据集通过RFT生成多个答案,筛选并强化模型。模型可以输出满足用户需求的命令,通过浏览器的扩展有权限操作浏览器。
关键观点3: GLM-PC在桌面端的应用
GLM-PC将OCR和Label-Action关联下的数据集推广到电脑上。使用Windows API操作,宣传片中展示了在视频会议中的麦克风和摄像头控制。但集成多模态输入解决了稳定性问题,需要认知GUI模型如CogAgent的帮助。
关键观点4: 未来发展方向和挑战
未来发展方向包括语言动作模型LAM、多模态方向、决策的搜索技术MCTS等。面临的挑战包括如何高效扩展GUI Agent的基准测试、隐私与数据合规问题,需要本地和云端模型的共同协作,利用联邦学习、差分隐私等进行本地高效推理和脱敏信息。
文章预览
(昨天ChaNg1o在社群分享的,很硬核,也可能是全网最先去解读的。之前智谱发布的手机Agent,有智谱大佬更新在了社群,这次的新发布,回头找他再来给大家科普下) 实现 50 步操作的背后 QwQ( 通义千问的推理模型 )类似的LRM( 大型推理模型)的经济效益远没有Agent带来的多 。 现在的AI进入了OpenAI定义的L3 (下图), 可以使用工具, reasoning model(推理模型)与Agent将在2025年爆发。 1. 智谱Agent 现在支持 自动操作超 过50步 ,这涉及了多步、 事件循环跨App操作,通过App Links 实现应 用之间的跳转。 这也会 涉及更多的屏幕上下文信息。 说明 多个App情景中的 CoAT(chain of action thought,动作-思维链) 稳定可用,已经可以利用更多的上下文,在App之间联动跳转。 2. GLM记住了更多的屏幕 ,“哦这个界面是美团,下一个是饿了么,记得执行完饿了么的动作
………………………………