专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

EMNLP'24 最佳论文解读 | 大语言模型的预训练数据检测：基于散度的校准方法

AI TIME 论道 · 公众号 · · 2024-12-27 18:00

文章预览

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！点击阅读原文观看作者讲解回放！作者简介张伟超，中国科学院计算所网络数据科学与技术重点实验室三年级直博生内容简介近年来，大语言模型（LLMs）的训练数据规模在不断扩大，而模型开发者却越来越不愿意公开训练数据的使用信息，这种情况使得审查大模型的数据使用过程是否符合法律法规面临困难。近期，在大模型上进行预训练数据检测的任务开始受到关注，即给定一段文本和一个预训练数据未知的大模型，仅依靠黑盒访问条件来推断该文本被用于大模型的预训练过程。Min-K% Prob方法在一些基准数据集上取得了最好的效果，该方法假设非训练文本往往包含一些具有低词元概率的异常词。然而，该方法容易将包含较多频繁词的非训练文本误分类为训练文本。受信息检索领域的diver ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博