一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

大语言模型越狱攻击综述

深度学习自然语言处理  · 公众号  ·  · 2024-07-21 18:55

文章预览

今天为大家介绍清华大学计算机系徐恪、宋佳兴、李琦老师团队,高研院丛天硕老师,和香港科技大学(广州)何新磊老师联合完成的综述《 Jailbreak Attacks and Defenses Against Large Language Models: A Survey 》。本文聚焦于大模型安全领域,探讨了目前大模型所面临的 “ 越狱攻击 ”(Jailbreak)问 题。 目前,大语言模型(LLMs)在各类生成任务中表现出了出色的性能,然而其强大的生成能力带来了“越狱攻击”的隐患,即攻击者通过设计 对抗性提示 (Adversarial Prompt)来诱导大模型生成违反社区规定和具有社会危害性的内容。随着大模型的各种安全漏洞被不断揭露,研究者们陆续提出了各种攻防手段。 文章链接: https://arxiv.org/pdf/2407.04295 Jailbreak Attacks and Defenses Against Large Language Models: A Survey Sibo Yi, Yule Liu, Zhen Sun, Tianshuo Cong, Xinlei He, Jiaxing Song, Ke Xu, Qi Li. 01 工作概要 本文 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览