文章预览
©PaperWeekly 原创 · 作者 | 李佳桐 单位 | 中国科学技术大学 论文标题: PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations 论文链接: https://arxiv.org/abs/2405.19740 开源代码: https://github.com/aigc-apps/PertEval 研究背景 & 挑战 随着大语言模型(LLMs)及其应用的快速发展,LLMs 的能力评估已经成为一项重要任务。其中知识能力(knowledge capacity)评测是重中之重,旨在评测 LLMs 掌握和调用知识解决问题的能力。 现有的知识能力评测通常基于静态封闭式数据集榜单,如 MMLU 等。这种知识能力评测方法通常 数据质量高、公开度和透明度高 。于此同时,基于静态封闭式数据集的评测也存在以下研究挑战: 数据污染: 评测数据集被用于 LLM 的训练,使得 LLM 记住题目和答案。若使用被污染数据,则评测结果无法反映 LLM 的真实能力 测试场景受
………………………………