文章预览
作者:bhn(已授权) 知识编辑——大语言模型原理探索 论文:Detoxifying Large Language Models via Knowledge Editing 链接:https://arxiv.org/abs/2403.14472 背景 尽管大语言模型取得了显著的进步,但是它也存在一些问题,由于数据来自互联网,并且数据量很大,不能进行完全的筛选,以至于模型会输出大量有毒内容。 尽管有大量工作如SFT,RLHF,DPO等致力于将模型和人类偏好对齐,以减少有毒的输出,但这些方法仅仅是抑制有毒的参数激活,不能真正的消除模型的毒性。该论文尝试使用知识编辑的方法祛除大模型的毒性。 本文的工作 这篇论文主要进行了两方面的工作: SafeEdit benchmark构建和 DINM (Detoxifying with Intraoperative Neural Monitoring)baseline的提出。 SafeEdit :由于现存的毒性数据集种类少,并且忽视了攻击prompt起到的作用。从而提出该benchmark。 DS (Defense Success): 衡
………………………………