你的专属“钢铁侠”助手OS Agents来了！浙大联手OPPO、零一万物等10个机构推出全新综述

量子位 · 公众号 · AI · 2025-01-03 15:31

主要观点总结

本文是对OS Agents的综述，介绍了OS Agents的定义、基础、构建方法、评估以及面临的挑战和未来发展方向。涵盖了环境、观察空间和动作空间等关键要素，并详细描述了理解、规划和操作等核心能力。同时，也介绍了近期相关的研究工作和学术成果。

关键观点总结

关键观点1: OS Agents的定义和概述

OS Agents是通过操作系统的环境和接口，在诸如电脑或手机等计算设备上自动化完成各类任务的智能体。它们具有巨大的潜力，能够改善全球数十亿用户的生活。

关键观点2: OS Agents的关键要素和能力

OS Agents的关键要素包括环境、观察空间和动作空间。理解能力、规划能力和操作能力是其核心能力的体现。

关键观点3: OS Agents的构建方法

构建OS Agents需要强大的基础模型和智能体框架。基础模型需要适应多模态场景，智能体框架则通过感知、规划、记忆和行动等模块协同工作，高效应对复杂的任务和环境。

关键观点4: OS Agents的评估

OS Agents的评估包括评估原则和评估指标。评估原则结合了客观评估和主观评估，评估指标则聚焦于智能体的理解、规划和操作能力。此外，还有多种评估基准和平台，用于全面衡量智能体的性能。

关键观点5: OS Agents面临的挑战和未来发展方向

OS Agents面临的主要挑战包括安全与隐私以及个性化与自我进化。未来发展方向在于提升安全性和个性化程度，增强用户体验。

文章预览

OS Agents团队投稿量子位 | 公众号 QbitAI 电影《钢铁侠》中，托尼·斯塔克的助手贾维斯（J.A.R.V.I.S.）能帮他控制各种系统并自动完成任务，曾让无数观众羡慕不已。现在，这样的超级智能助手，终于变成现实了！随着多模态大语言模型的爆发式进化， OS Agents 横空出世，它们能无缝操控电脑和手机，为你自动搞定繁琐任务。从Anthropic的Computer Use，到苹果的Apple Intelligence，再到智谱AI的AutoGLM，以及Google DeepMind的Project Mariner，科技巨头们的野心都指向了同一个目标：打造真正意义上的操作系统智能助手。 OS Agents 已经不仅仅是“助手”，它们正在改写“人机交互”的游戏规则。最近，浙江大学联手 OPPO、零一万物等十个机构共同梳理了一篇综述文章《OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use》，不仅详细解读了OS Agents的硬核技术构 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博