专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

ICML 2024 | DyVal 2:更加通用和自动的大语言模型的动态评测和洞察协议

将门创投  · 公众号  · 科技创业  · 2024-06-26 08:35
大语言模型(LLMs)通常在海量数据上训练过,这造成了潜在的测试数据污染问题[1, 2, 3],即公开的测试数据如MMLU等会不可避免地被加入训练集或有针对性地overfit测试集的问题。如何保证测试数据能够合理且正确的评估大语言模型这一问题引起了学术界的广泛关注。先前的工作DyVal [1] (Dynamic Evaluation,动态评测协议)利用有向无环图(Directed Acyclic Graphs, DAGs)动态生成测试数据,减少了测试数据被模型记忆的可能。然而,DyVal很难利用至那些无法用DAG表示的任务中(如mmlu,arc等)。本文将DyVal升级,提出Meta Probing Agent (MPA)。MPA设计了探测(probing)和评判(judge)agent,遵循心理测评学理论的三种基本认知能力:语言理解、问题解决和领域知识,自动将原始评估问题转变为新的问题。这些基本能力还可以动态配置,允许多角度分析。本文对经过MPA ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照