专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

EMNLP2024 | 解锁Apple Intelligence:用AppBench一键评测你的手机智能

AINLP  · 公众号  ·  · 2024-11-10 23:00
    

文章预览

这篇论文介绍了AppBench,一个评估大型语言模型在复杂用户指令下规划和执行来自多个应用的多项API的新基准。 论文: AppBench: Planning of Multiple APIs from Various APPs for Complex User Instruction - EMNLP2024 链接: https://arxiv.org/pdf/2410.19743 作者: 王鸿儒 港中文在读PhD 主页: https://rulegreen.github.io 研究背景 研究问题:这篇文章要解决的问题是如何评估大型语言模型(LLMs)在复杂用户指令下规划和执行来自不同来源的多个API的能力。具体来说,研究了两个主要挑战:图结构和权限约束。 研究难点:该问题的研究难点包括: 图结构:一些API可以独立执行,而另一些则需要依次执行,形成类似图的执行顺序。 权限约束:需要确定每个API调用的授权来源。 相关工作:该问题的研究相关工作有: API调用评估:如API-Bank和ToolBench等,主要关注单次或有限参数的API调用。 语 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览