破解大模型隐私防线，华科清华联手实现微调数据90%精准识别 | NeurIPS24

量子位 · 公众号 · AI · 2025-01-04 13:08

主要观点总结

本文揭示了针对微调大模型的成员推理攻击的新方法，通过自校正机制来检测给定文本是否属于大模型的微调数据集。针对现实场景中的挑战，提出了基于自校正概率波动的成员推理攻击（SPV-MIA），该方法利用大模型自身的强大拟合和泛化能力，通过自提示方法生成校正数据集，并引入概率波动指标来刻画大模型的记忆现象特征。实验结果表明，该方法在多种大模型和微调数据集上取得了显著的性能提升。

关键观点总结

关键观点1: 现有的成员推理攻击在现实场景中无法对微调大模型造成有效的隐私泄露风险。

现有的两种成员推理攻击范式依赖于两个在现实场景中无法成立的假设。因此，在现实场景中只能取得接近于随机猜测的鉴别性能。

关键观点2: 提出基于自校正概率波动的成员推理攻击（SPV-MIA）

为了解决现有挑战，提出了一种自提示方法，从大型语言模型中提取校正数据集。引入了一种基于记忆而非过拟合的更可靠的成员推理分数。

关键观点3: SPV-MIA的实验结果

大量实验证明了SPV-MIA相对于所有基线的优越性，在四个开源的大模型和三个不同领域的微调数据集上，仅需1,000次查询就能达到超过90%的准确度。此外，探究了基于校正的成员推理攻击方法如何依赖于校正数据集的质量，并评估了自提示机制构建的高质量校正数据集。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

宝玉xp · 当时我还是保守了，以为我这个建议有效期能有一年，现在才大半年，最-20250706015500

6 小时前

爱可可-爱生活 · 【[43星]fastsafetensors：高性能的safete-20250705192835

12 小时前

宝玉xp · v0.dev 的创始人Jared Palmer分享了一个很有意思-20250705153932

16 小时前

宝玉xp · //@桂曙光:直接问过两家传统企业大厂领导（一家国资上市公司、一-20250705140207

18 小时前

硅发布 · 对冲基金 Coatue：AI 的超级周期

昨天

新街派生活报 · “360”，突发！

11 月前

上海普陀 · 非遗体验、爱心义卖……普陀这里花式迎元旦

6 月前

龙岩市场监管 · 冰箱里冻了一年的肉，到底还能不能吃？

5 月前

都市110 · 山西不止好风光 | 各景区有多火爆？游玩攻略来了！

2 月前

浙江城市之声 · 手臂肌腱被咬断，近期激增，半个月接诊近200例

1 月前