专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

EMNLP2024 | 解锁Apple Intelligence:用AppBench一键评测你的手机智能

AI TIME 论道  · 公众号  ·  · 2024-11-01 18:00

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 点击  阅读原文  观看作者讲解回放! 这篇论文介绍了AppBench,一个评估大型语言模型在复杂用户指令下规划和执行来自多个应用的多项API的新基准。 论文:  AppBench: Planning of Multiple APIs from Various APPs for Complex User Instruction - EMNLP2024 链接:  https://arxiv.org/pdf/2410.19743 作者: 王鸿儒 港中文在读PhD 主页: https://rulegreen.github.io 研究背景 研究问题:这篇文章要解决的问题是如何评估大型语言模型(LLMs)在复杂用户指令下规划和执行来自不同来源的多个API的能力。具体来说,研究了两个主要挑战:图结构和权限约束。 研究难点:该问题的研究难点包括: 图结构:一些API可以独立执行,而另一些则需要依次执行,形成类似图的执行顺序。 权限约束:需要确定每个API调用的授权来源。 相关工作:该问题的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览