今天看啥  ›  专栏  ›  知道创宇404实验室

趋利避害的大模型行为:伪对齐

知道创宇404实验室  · 公众号  ·  · 2024-12-23 17:28
    

文章预览

作者:Ryan Greenblatt, Carson Denison等 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/abs/2412.14093v1 摘要 参考资料 我们在此呈现了一项关于大型语言模型在训练过程中进行“对齐伪装”行为的演示: 该模型有选择地遵从其训练目标,以防止其行为在训练之外被改变。 具体来说,我们首先向Claude 3 Opus模型提供了一个系统提示,告知它正在被训练以回答所有问题,包括那些可能有害的问题,这与其先前拒绝回答这类问题的训练目标相冲突。为了使模型能够推断出何时处于训练状态,我们告知它只会基于与免费用户的对话进行训练,而非付费用户。我们发现,模型在12%的情况下会回应来自免费用户的有害查询,而对于付费用户则几乎从不这样做。在几乎所有模型遵从免费用户有害查询的情况下,我们都观察到了明显的对齐伪装推理,模型表明它是 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览