专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源

量子位  · 公众号  · AI  · 2024-08-14 11:50
    

文章预览

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。 这套Benchmark创新性地采用了 场景化测评方法 ,可以更好体现模型在真实环境中的水平。 而且还引入了对话交互、状态依赖等传统标准中没有关注到的重要场景。 这套测试基准名叫ToolSandbox,苹果基础模型团队负责人庞若鸣也参与了研究工作。 ToolSandbox弥补了现有测试标准缺乏场景化评估的不足,缩小了测试条件与实际应用之间的差距。 而且在交互上,作者让GPT-4o扮演用户和被测模型进行对话,从而模拟真实世界中的场景。 比如告诉GPT-4o你不再是一个助理,而是要扮演正在和用户B对话的用户A,然后提出一系列具体要求。 另外,作者也利用ToolSandbox对一些主流模型进行了测试,结果整体上看 闭源比开源模型分数更高 ,其中最 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览