专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

大语言模型越狱攻击综述

深度学习自然语言处理 · 公众号 · · 2024-07-21 18:55

文章预览

今天为大家介绍清华大学计算机系徐恪、宋佳兴、李琦老师团队，高研院丛天硕老师，和香港科技大学(广州)何新磊老师联合完成的综述《 Jailbreak Attacks and Defenses Against Large Language Models: A Survey 》。本文聚焦于大模型安全领域，探讨了目前大模型所面临的 “ 越狱攻击 ”(Jailbreak)问题。目前，大语言模型(LLMs)在各类生成任务中表现出了出色的性能，然而其强大的生成能力带来了“越狱攻击”的隐患，即攻击者通过设计对抗性提示 (Adversarial Prompt)来诱导大模型生成违反社区规定和具有社会危害性的内容。随着大模型的各种安全漏洞被不断揭露，研究者们陆续提出了各种攻防手段。文章链接： https://arxiv.org/pdf/2407.04295 Jailbreak Attacks and Defenses Against Large Language Models: A Survey Sibo Yi, Yule Liu, Zhen Sun, Tianshuo Cong, Xinlei He, Jiaxing Song, Ke Xu, Qi Li. 01 工作概要本文 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博