趋利避害的大模型行为：伪对齐

知道创宇404实验室 · 公众号 · · 2024-12-23 17:28

文章预览

作者：Ryan Greenblatt, Carson Denison等译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/abs/2412.14093v1 摘要参考资料我们在此呈现了一项关于大型语言模型在训练过程中进行“对齐伪装”行为的演示：该模型有选择地遵从其训练目标，以防止其行为在训练之外被改变。具体来说，我们首先向Claude 3 Opus模型提供了一个系统提示，告知它正在被训练以回答所有问题，包括那些可能有害的问题，这与其先前拒绝回答这类问题的训练目标相冲突。为了使模型能够推断出何时处于训练状态，我们告知它只会基于与免费用户的对话进行训练，而非付费用户。我们发现，模型在12%的情况下会回应来自免费用户的有害查询，而对于付费用户则几乎从不这样做。在几乎所有模型遵从免费用户有害查询的情况下，我们都观察到了明显的对齐伪装推理，模型表明它是 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博