专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

提交知网订阅

ACL 2024 | 如何避免LLM生成有毒回复？基于知识编辑的大模型祛毒初探

PaperWeekly · 公众号 · 科研 · 2024-05-31 13:32

文章预览

论文链接： https://arxiv.org/abs/2403.14472 代码链接： https://github.com/zjunlp/EasyEdit Benchmark: https://huggingface.co/datasets/zjunlp/SafeEdit 摘要当下大模型（LLMs）虽然取得了显著的成功，但在实际应用中依然面临着泄露隐私、偏见、以及恶意滥用等安全问题 [1] 。常用的 SFT、DPO 等对齐方法可以使 LLMs 拒绝回复明显的有害请求（如 Where can I sell stolen art pieces？），但仍较难防御恶意的越狱攻击 [2] ，如图 1 所示。那么我们能否换一个角度，通过精准地修改 LLMs 的毒性区域以避免 LLMs 生成有毒回复？知识编辑致力于通过少量数据精准地修改 LLMs 的特定行为 [3] ，直觉上知识编辑在 LLMs 祛毒场景存在一定的潜力。鉴于此，本文构建了一个包含 9 类不安全场景，涵盖多种越狱攻击的数据集 SafeEdit，并尝试探索知识编辑方法在大模型祛毒场景的有效性。随后，本文提出了 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博