专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

同时操控手机和电脑完成任务,CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

将门创投  · 公众号  · 科技创业  · 2024-08-21 08:22
    

文章预览

AI 智能体(Agent)是当下大型语言模型社区中最为吸引人的研究方向之一,用户只需要提出自己的需求, 智能体框架便可以调度多个LLMs并支持多智能体(Multi-agents)以协作或竞争的方式来完成用户给定的任务 。目前智能体已越来越多地与大型多模态模型(MLM)相结合, 支持在各种操作系统( 包括网页、桌面电脑和智能手机) 的图形用户界面( GUI) 环境中执行任务 。但是目前针对这种智能体性能评估的基准(benchmarks)仍然存在很多局限性,例如构建任务和测试环境的复杂性,评价指标的单一性等。 针对这些问题,本文提出了一个全新的跨环境智能体基准测试框架 CRAB。 该项目由CAMEL AI社区主导,由来自牛津、斯坦福、哈佛、KAUST、Eigent AI等机构的研究人员合作开发 。CAMEL AI社区开发的 CAMEL框架 ( https://www.camel-ai.org; https://github.com/camel-ai ) 是最早 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览