今天看啥  ›  专栏  ›  AI科技评论

华为与哈工深等最新研究成果:SPA-Bench,手机操控智能体评估新标准

AI科技评论  · 公众号  ·  · 2024-12-13 18:00
    

文章预览

该研究解决了现有手机智能体基准测试的局限性,为手机操控智能体的研究与评估提供标准。 随着智能手机成为人们日常生活中不可或缺的工具,手机操控智能体(smartphone control agent)的研究逐渐成为大模型领域的重要方向。通过自然语言指令,这些智能体能够高效地完成复杂任务,从简单的应用打开到多步骤的跨应用操作,甚至包括多语言支持。然而,如何全面、精确地评估这些智能体的能力却始终是一个没有解决的关键问题。 近日,华为诺亚方舟实验室与哈尔滨工业大学(深圳)联合提出了一个全新的评估框架—— SPA-Bench (SmartPhone Agent Benchmark)。这一框架旨在解决现有手机智能体基准测试的局限性,通过覆盖 340 个任务、支持中英双语和第三方应用操作,以及提供自动化评估流程和多维度指标,重新定义了手机操控智能体的研究与评估标 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览