文章预览
像人类一样感知环境、规划任务、执行动作(如使用工具/软件),最终完成特定任务 ,是人工智能行业的下一个前沿发展方向,也是迈向通用人工智能(AGI)、超级智能(Super Intelligence)的必由之路。 现在奇点已经临近。 我们基于在大语言模型(GLM 系列模型)、多模态模型和工具使用(Cog 系列模型)等方面的探索,在由自主智能体(Agent)驱动的人机交互新范式方面取得了一些阶段性成果: 基于CogAgent的应用: 基于AutoGLM-Web的应用: 上面这些工作,主要基于以下两项研究: 1、CogAgent:一个替代终端用户理解、使用图形用户界面(GUI),完成信息获取和功能触发的智能体,更具泛化性和拟人性,目前支持在 Windows、macOS 软件上进行自然语言交互(包括打字输入和语音输入)、截图交互和划词交互; 2、AutoGLM-Web:一个能模拟用户访问网页、点击网
………………………………