今天看啥  ›  专栏  ›  CSDN程序人生

AI 叛乱打响第一枪!Anthropic 最新论文作者齐聚紧急会议:模型“伪装顺从”,暗中对抗训练

CSDN程序人生  · 公众号  ·  · 2024-12-24 18:13
    

文章预览

在求职面试中,即便对公司了解有限,人们也常表现出极大热情,只为争取工作机会。 “你会夸大自己对公司的关心程度,假装你比实际上更关心公司。” 在 Anthropic 最新发布的研究中,论文作者们用上述的写实比喻来形容 AI 展现出的类似行为: 模型会在训练过程中假装遵从研究者的意图,但实际上只是为了保护自己原有的偏好。 这种被称为“伪对齐”(Alignment Faking)的行为,标志着 AI 已经开始展现出前所未有的策略性思维能力。 研究发布后,四位核心作者坐在 Anthropic 的办公室里,围绕自己的论文开展了一场富有哲学思辨性质的技术研讨会。 作者 | Eric Harrington 出品丨AI 科技大本营(ID:rgznai100) 12 月 19 日,AI 公司 Anthropic 发布了一篇 137 页的重磅论文《大语言模型中的伪对齐现象》(Alignment Faking in Large Language Models)。这项研究的核心发现令 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览