专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

【NeurIPS2024】IDGen:基于项目区分度的提示生成用于大型语言模型评估

数据派THU  · 公众号  · 大数据  · 2024-10-15 17:00
    

文章预览

来源:专知 本文 为论文介绍 ,建议阅读 5 分钟 我们提出了一种基于项目区分度的提示生成框架,用于评估 LLMs,确保评估集能够根据模型能力不断更新和改进。 随着大型语言模型 (LLMs) 在处理复杂任务方面变得越来越娴熟,评估集也必须跟上这些进展,以确保其具有足够的区分度。广泛应用于教育评估中的项目区分度 (ID) 理论衡量的是单个测试项目区分高低表现者的能力。受该理论的启发,我们提出了一种基于项目区分度的提示生成框架,用于评估 LLMs,确保评估集能够根据模型能力不断更新和改进。我们的数据生成框架既重视广度又重视特异性,能够生成全面评估 LLMs 能力的提示,同时揭示模型之间有意义的性能差异,从而有效区分它们在各类任务和领域中的相对强项和弱项。 为了生成高质量数据,我们在泛化框架中引入了自我修正机制,并 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览