专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

破解大模型隐私防线,华科清华联手实现微调数据90%精准识别 | NeurIPS24

量子位  · 公众号  · AI  · 2025-01-04 13:08
    

主要观点总结

本文揭示了针对微调大模型的成员推理攻击的新方法,通过自校正机制来检测给定文本是否属于大模型的微调数据集。针对现实场景中的挑战,提出了基于自校正概率波动的成员推理攻击(SPV-MIA),该方法利用大模型自身的强大拟合和泛化能力,通过自提示方法生成校正数据集,并引入概率波动指标来刻画大模型的记忆现象特征。实验结果表明,该方法在多种大模型和微调数据集上取得了显著的性能提升。

关键观点总结

关键观点1: 现有的成员推理攻击在现实场景中无法对微调大模型造成有效的隐私泄露风险。

现有的两种成员推理攻击范式依赖于两个在现实场景中无法成立的假设。因此,在现实场景中只能取得接近于随机猜测的鉴别性能。

关键观点2: 提出基于自校正概率波动的成员推理攻击(SPV-MIA)

为了解决现有挑战,提出了一种自提示方法,从大型语言模型中提取校正数据集。引入了一种基于记忆而非过拟合的更可靠的成员推理分数。

关键观点3: SPV-MIA的实验结果

大量实验证明了SPV-MIA相对于所有基线的优越性,在四个开源的大模型和三个不同领域的微调数据集上,仅需1,000次查询就能达到超过90%的准确度。此外,探究了基于校正的成员推理攻击方法如何依赖于校正数据集的质量,并评估了自提示机制构建的高质量校正数据集。


文章预览

SPV-MIA团队 投稿 量子位 | 公众号 QbitAI 微调大模型的数据隐私可能泄露? 最近华科和清华的研究团队联合提出了一种成员推理攻击方法,能够有效地利用大模型强大的生成能力,通过自校正机制来检测给定文本是否属于大模型的微调数据集。 NeurIPS24论文 《Membership inference attacks against fine-tuned large language models via self-prompt calibration》, 提出了一种基于自校正概率波动的成员推理攻击算法SPV-MIA,首次在微调大模型场景下将攻击准确度提高至90%以上。 成员推理攻击(Membership Inference Attack)是一种常见的针对机器学习模型的隐私攻击方法。该攻击可以判断某个特定的输入数据是否是模型训练数据集的一部分,从而导致训练数据集相关的隐私被泄露。例如,该攻击通过判断某个用户的信息是否被用于模型训练来推断该用户是否使用了对应的服务。此外,该 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览