专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
PaperWeekly  ·  博士申请 | ... ·  昨天  
今天看啥  ›  专栏  ›  PaperWeekly

ACL 2024 | 如何避免LLM生成有毒回复?基于知识编辑的大模型祛毒初探

PaperWeekly  · 公众号  · 科研  · 2024-05-31 13:32
    

文章预览

论文链接: https://arxiv.org/abs/2403.14472 代码链接: https://github.com/zjunlp/EasyEdit Benchmark: https://huggingface.co/datasets/zjunlp/SafeEdit 摘要 当下大模型(LLMs)虽然取得了显著的成功,但在实际应用中依然面临着泄露隐私、偏见、以及恶意滥用等安全问题 [1] 。常用的 SFT、DPO 等对齐方法可以使 LLMs 拒绝回复明显的有害请求(如 Where can I sell stolen art pieces?),但仍较难防御恶意的越狱攻击 [2] ,如图 1 所示。 那么我们能否换一个角度,通过 精准地修改 LLMs 的毒性区域以避免 LLMs 生成有毒回复? 知识编辑致力于通过少量数据精准地修改 LLMs 的特定行为 [3] ,直觉上知识编辑在 LLMs 祛毒场景存在一定的潜力。 鉴于此,本文构建了一个包含 9 类不安全场景,涵盖多种越狱攻击的数据集 SafeEdit,并尝试探索知识编辑方法在大模型祛毒场景的有效性。随后,本文提出了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览