专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

EMNLP 2024最佳论文:基于散度校准的大模型预训练数据检测方法

PaperWeekly  · 公众号  · 科研  · 2024-11-27 13:37

文章预览

引言 大规模语言模型(LLMs)的有效性在很大程度上依赖于其预训练数据的规模和质量。然而,许多模型开发者出于保密或其它原因,往往不愿意公开其训练语料的具体细节。这种缺乏透明度给科学评估和伦理部署带来了诸多挑战。 随着对 LLMs 的应用日益广泛,预训练数据的隐私和版权问题引起了越来越多的关注。例如,OpenAI 和 NVIDIA 因其训练数据的使用面临法律诉讼(Grynbaum and Mac, 2023; Stempel, 2024),这进一步突显了透明性的重要性。 在此背景下,针对如何检测给定文本是否为 LLM 的预训练数据的问题展开了研究。具体而言,研究者们探索了多种方法,这些方法通过黑箱访问推断某段文本是否包含在 LLM 的训练数据中。现有的研究表明,文本的 Token 概率分布可以提供关于其是否为训练数据的重要信息。 然而,基于 Token 概率的现有方法,如 Min Pro ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览