文章预览
随着数据的爆炸性增长和计算资源的发展,构建能够在各种任务中取得卓越表现的预训练模型变得可能,如神经语言处理、计算机视觉等。尽管预训练模型具有强大的能力,但它们也引发了对其实际应用中出现的安全挑战的关注。安全和隐私问题,如泄露隐私信息和生成有害回应,严重削弱了用户对这些强大模型的信任。随着模型性能的显著提升,相关担忧也在加剧。研究人员迫切希望探索这些新兴的安全与隐私问题、它们的特征及如何防御这些问题。然而,现有文献缺乏关于预训练模型新兴攻击与防御的清晰分类,这阻碍了对这些问题的高层次和全面理解。为填补这一空白,我们对预训练模型的安全风险进行了系统性综述,提出了一种基于预训练模型输入和权重在各种安全测试场景中的可访问性来分类攻击和防御方法的分类法。该分类法将攻击
………………………………