【伯克利博士论文】语言模型的脆弱性

专知 · 公众号 · · 2025-02-21 11:00

文章预览

在我的博士研究期间，大型语言模型（LLMs）从一个相对新兴的研究方向发展成为现代计算机科学中最热门的领域之一。迄今为止，这些模型仍在以快速的步伐不断进步，各种行业团体争相将其投入生产，应用于多个业务领域。然而，这一进展并非全然正面——我们已经观察到，AI模型的部署已导致广泛的安全、隐私和稳健性失败。在本论文中，我将讨论构建值得信赖和安全的LLMs的理论与实践。在第一部分，我将展示LLMs如何在训练过程中记忆文本和图像，这使得对手能够从模型的训练集提取私密或受版权保护的数据。我将提出通过数据去重和差分隐私等技术来缓解这些攻击，展示攻击有效性降低几个数量级的结果。在第二部分，我将展示在部署过程中，对手可以发送恶意输入来触发错误分类或启用模型滥用。这些攻击可以是普遍性和隐蔽性的，我 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博