今天看啥  ›  专栏  ›  机器之心

NeurIPS 2024 | 真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测

机器之心  · 公众号  · AI  · 2024-11-04 12:31

文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 本篇论文已被 NeurIPS 2024 Dataset & Benchmark Track 接收,作者来自上海交通大学 IWIN 计算智能团队和上海人工智能实验室。其中,第一作者王骥泽是上海交通大学自动化系一年级博士生,研究方向涉及大模型智能体、自然语言处理。 利用语言模型调用工具,是实现通用目标智能体(general-purpose agents)的重要途径,对语言模型的工具调用能力提出了挑战。然而,现有的工具评测和真实世界场景存在很大差距,局限性主要体现在以下几个方面: 评估问题通常是 AI 生成的,形式 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览