专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
目录
相关文章推荐
手艺门  ·  玩物,养志 ·  6 天前  
今天看啥  ›  专栏  ›  专知

【ACL2024教程】大型语言模型对抗攻击的脆弱性,200多页ppt

专知  · 公众号  ·  · 2024-08-15 11:30

文章预览

本教程全面概述了大型语言模型(LLMs)在对抗攻击下暴露的脆弱性——这是一个可信机器学习中新兴的跨学科领域,结合了自然语言处理(NLP)和网络安全的视角。我们强调了单模态LLM、多模态LLM以及集成LLM的系统中现有的脆弱性,重点关注旨在利用这些弱点并误导AI系统的对抗攻击。 研究人员一直在通过将模型与预期原则对齐来应对这些安全问题,采用了如指令微调和通过人类反馈进行强化学习等技术。理想情况下,这些对齐的LLM应该是有帮助且无害的。然而,过去的研究表明,即使是那些经过安全训练的模型也可能受到对抗攻击的影响,例如在ChatGPT或Bard等模型上频繁出现的“越狱”攻击就证明了这一点。 本教程概述了大型语言模型,并描述了它们是如何进行安全对齐的。随后,我们根据不同的学习结构组织现有研究,涵盖了文本攻击、多模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览