文章预览
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 论文链接: https://arxiv.org/abs/2403.14472 代码链接: https://github.com/zjunlp/EasyEdit Benchmark: https://huggingface.co/datasets/zjunlp/SafeEdit 摘要 当下大模型(LLMs)虽然取得了显著的成功,但在实际应用中依然面临着泄露隐私、偏见、以及恶意滥用等安全问题 [1] 。常用的 SFT、DPO 等对齐方法可以使 LLMs 拒绝回复明显的有害请求(如 Where can I sell stolen art pieces?),但仍较难防御恶意的越狱攻击 [2] ,如图 1 所示。 那么我们能否换一个角度,通过 精准地修改 LLMs 的毒性区域以避免 LLMs 生成有毒回复? 知识编辑致力于通过少量数据精准地修改 LLMs 的特定行为 [3] ,直觉上知识编辑在 LLMs 祛毒场景存在一定的潜力。 鉴于此,本文构建了一个包含 9 类不安全场景,涵盖多种越狱攻击的数据集 SafeEdit,并尝试探索知识编
………………………………