专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

使用“消除”技术绕过LLM的安全机制,不用训练就可以创建自己的nsfw模型

数据派THU  · 公众号  · 大数据  · 2024-07-03 17:00
来源:DeepHub IMBA本文约4600字,建议阅读10分钟本文介绍了“消除”的概念,该技术利用模型在无害和有害提示上的激活来计算拒绝方向。开源的大模型在理解和遵循指令方面都表现十分出色。但是这些模型都有审查的机制,在获得被认为是有害的输入的时候会拒绝执行指令,例如会返回“As an AI assistant, I cannot help you.”。这个安全功能对于防止误用至关重要,但它限制了模型的灵活性和响应能力。在本文中,我们将探索一种称为“abliteration”的技术,它可以在不进行再训练的情况下取消LLM审查。这种技术有效地消除了模型的内置拒绝机制,允许它响应所有类型的提示。什么是abliteration?现代LLM在安全性和教学遵循方面进行了微调,这意味着他们接受了拒绝有害要求的输入。Arditi等人在他们的博客文章中表明,这种拒绝行为是由模型残差流中的特定方 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照