专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

ACL 2024 | 如何避免LLM生成有毒回复?基于知识编辑的大模型祛毒初探

AI TIME 论道  · 公众号  ·  · 2024-07-23 18:00

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 论文链接: https://arxiv.org/abs/2403.14472 代码链接: https://github.com/zjunlp/EasyEdit Benchmark: https://huggingface.co/datasets/zjunlp/SafeEdit 摘要 当下大模型(LLMs)虽然取得了显著的成功,但在实际应用中依然面临着泄露隐私、偏见、以及恶意滥用等安全问题 [1] 。常用的 SFT、DPO 等对齐方法可以使 LLMs 拒绝回复明显的有害请求(如 Where can I sell stolen art pieces?),但仍较难防御恶意的越狱攻击 [2] ,如图 1 所示。 那么我们能否换一个角度,通过 精准地修改 LLMs 的毒性区域以避免 LLMs 生成有毒回复? 知识编辑致力于通过少量数据精准地修改 LLMs 的特定行为 [3] ,直觉上知识编辑在 LLMs 祛毒场景存在一定的潜力。 鉴于此,本文构建了一个包含 9 类不安全场景,涵盖多种越狱攻击的数据集 SafeEdit,并尝试探索知识编 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览