一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

EMNLP2024 | 解锁Apple Intelligence:用AppBench一键评测你的手机智能

深度学习自然语言处理  · 公众号  ·  · 2024-10-29 23:53
    

文章预览

这篇论文介绍了AppBench,一个评估大型语言模型在复杂用户指令下规划和执行来自多个应用的多项API的新基准。 论文: AppBench: Planning of Multiple APIs from Various APPs for Complex User Instruction - EMNLP2024 链接: https://arxiv.org/pdf/2410.19743 作者: 王鸿儒 港中文在读PhD 主页: https://rulegreen.github.io 研究背景 研究问题:这篇文章要解决的问题是如何评估大型语言模型(LLMs)在复杂用户指令下规划和执行来自不同来源的多个API的能力。具体来说,研究了两个主要挑战:图结构和权限约束。 研究难点:该问题的研究难点包括: 图结构:一些API可以独立执行,而另一些则需要依次执行,形成类似图的执行顺序。 权限约束:需要确定每个API调用的授权来源。 相关工作:该问题的研究相关工作有: API调用评估:如API-Bank和ToolBench等,主要关注单次或有限参数的API调用。 语 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览