一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
今天看啥  ›  专栏  ›  深度学习自然语言处理

知识编辑——祛除模型毒性的新方法

深度学习自然语言处理  · 公众号  ·  · 2024-10-10 19:47

文章预览

作者:bhn(已授权) 知识编辑——大语言模型原理探索 论文:Detoxifying Large Language Models via Knowledge Editing 链接:https://arxiv.org/abs/2403.14472 背景 尽管大语言模型取得了显著的进步,但是它也存在一些问题,由于数据来自互联网,并且数据量很大,不能进行完全的筛选,以至于模型会输出大量有毒内容。 尽管有大量工作如SFT,RLHF,DPO等致力于将模型和人类偏好对齐,以减少有毒的输出,但这些方法仅仅是抑制有毒的参数激活,不能真正的消除模型的毒性。该论文尝试使用知识编辑的方法祛除大模型的毒性。 本文的工作 这篇论文主要进行了两方面的工作: SafeEdit benchmark构建和 DINM (Detoxifying with Intraoperative Neural Monitoring)baseline的提出。 SafeEdit :由于现存的毒性数据集种类少,并且忽视了攻击prompt起到的作用。从而提出该benchmark。 DS (Defense Success): 衡 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览