文章预览
今天为大家介绍清华大学计算机系徐恪、宋佳兴、李琦老师团队,高研院丛天硕老师,和香港科技大学(广州)何新磊老师联合完成的综述《 Jailbreak Attacks and Defenses Against Large Language Models: A Survey 》。本文聚焦于大模型安全领域,探讨了目前大模型所面临的 “ 越狱攻击 ”(Jailbreak)问 题。 目前,大语言模型(LLMs)在各类生成任务中表现出了出色的性能,然而其强大的生成能力带来了“越狱攻击”的隐患,即攻击者通过设计 对抗性提示 (Adversarial Prompt)来诱导大模型生成违反社区规定和具有社会危害性的内容。随着大模型的各种安全漏洞被不断揭露,研究者们陆续提出了各种攻防手段。 文章链接: https://arxiv.org/pdf/2407.04295 Jailbreak Attacks and Defenses Against Large Language Models: A Survey Sibo Yi, Yule Liu, Zhen Sun, Tianshuo Cong, Xinlei He, Jiaxing Song, Ke Xu, Qi Li. 01 工作概要 本文
………………………………