文章预览
本教程全面概述了大型语言模型(LLMs)在对抗攻击下暴露的脆弱性——这是一个可信机器学习中新兴的跨学科领域,结合了自然语言处理(NLP)和网络安全的视角。我们强调了单模态LLM、多模态LLM以及集成LLM的系统中现有的脆弱性,重点关注旨在利用这些弱点并误导AI系统的对抗攻击。 研究人员一直在通过将模型与预期原则对齐来应对这些安全问题,采用了如指令微调和通过人类反馈进行强化学习等技术。理想情况下,这些对齐的LLM应该是有帮助且无害的。然而,过去的研究表明,即使是那些经过安全训练的模型也可能受到对抗攻击的影响,例如在ChatGPT或Bard等模型上频繁出现的“越狱”攻击就证明了这一点。 本教程概述了大型语言模型,并描述了它们是如何进行安全对齐的。随后,我们根据不同的学习结构组织现有研究,涵盖了文本攻击、多模
………………………………