【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

专知 · 公众号 · · 2024-08-15 11:30

文章预览

本教程全面概述了大型语言模型（LLMs）在对抗攻击下暴露的脆弱性——这是一个可信机器学习中新兴的跨学科领域，结合了自然语言处理（NLP）和网络安全的视角。我们强调了单模态LLM、多模态LLM以及集成LLM的系统中现有的脆弱性，重点关注旨在利用这些弱点并误导AI系统的对抗攻击。研究人员一直在通过将模型与预期原则对齐来应对这些安全问题，采用了如指令微调和通过人类反馈进行强化学习等技术。理想情况下，这些对齐的LLM应该是有帮助且无害的。然而，过去的研究表明，即使是那些经过安全训练的模型也可能受到对抗攻击的影响，例如在ChatGPT或Bard等模型上频繁出现的“越狱”攻击就证明了这一点。本教程概述了大型语言模型，并描述了它们是如何进行安全对齐的。随后，我们根据不同的学习结构组织现有研究，涵盖了文本攻击、多模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博