专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

知识编辑——祛除模型毒性的新方法

深度学习自然语言处理 · 公众号 · · 2024-10-10 19:47

文章预览

作者：bhn（已授权）知识编辑——大语言模型原理探索论文:Detoxifying Large Language Models via Knowledge Editing 链接：https://arxiv.org/abs/2403.14472 背景尽管大语言模型取得了显著的进步，但是它也存在一些问题，由于数据来自互联网，并且数据量很大，不能进行完全的筛选，以至于模型会输出大量有毒内容。尽管有大量工作如SFT，RLHF，DPO等致力于将模型和人类偏好对齐，以减少有毒的输出，但这些方法仅仅是抑制有毒的参数激活，不能真正的消除模型的毒性。该论文尝试使用知识编辑的方法祛除大模型的毒性。本文的工作这篇论文主要进行了两方面的工作： SafeEdit benchmark构建和 DINM （Detoxifying with Intraoperative Neural Monitoring）baseline的提出。 SafeEdit ：由于现存的毒性数据集种类少，并且忽视了攻击prompt起到的作用。从而提出该benchmark。 DS (Defense Success): 衡 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博