中科院提出大模型“基准泄露”排行榜，Qwen模型位居榜首

深度学习与NLP · 公众号 · · 2024-09-13 00:00

文章预览

编辑 & 整理：深度学习自然语言处理公众号近期，大规模语言模型在多个自然语言处理的基准测试中取得了显著的进展。这些模型之所以能够取得成功，部分原因在于它们通过对互联网上收集的庞大语料库进行广泛的预训练。然而，预训练语料库可能因为开发者有意或无意的数据收集行为，包含了各种评估基准的数据。这种数据泄露可能导致无法准确评估模型的真实性能，模型可能仅仅是记住了难题的答案。研究发现，当一个大型语言模型的预训练数据中包含了某个数据集的内容时，它在该数据集上的表现会有所提升，但在其他不相关任务上的性能却可能下降，这最终可能导致对模型性能的评估变得不准确。中国科学院深圳先进技术研究院和中国科学技术大学的研究人员提出了一种简单而有效的数据泄露检测方法，该方法基于选择题选项内容 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博