文章预览
在求职面试中,即便对公司了解有限,人们也常表现出极大热情,只为争取工作机会。 “你会夸大自己对公司的关心程度,假装你比实际上更关心公司。” 在 Anthropic 最新发布的研究中,论文作者们用上述的写实比喻来形容 AI 展现出的类似行为: 模型会在训练过程中假装遵从研究者的意图,但实际上只是为了保护自己原有的偏好。 这种被称为“伪对齐”(Alignment Faking)的行为,标志着 AI 已经开始展现出前所未有的策略性思维能力。 研究发布后,四位核心作者坐在 Anthropic 的办公室里,围绕自己的论文开展了一场富有哲学思辨性质的技术研讨会。 作者 | Eric Harrington 出品丨AI 科技大本营(ID:rgznai100) 12 月 19 日,AI 公司 Anthropic 发布了一篇 137 页的重磅论文《大语言模型中的伪对齐现象》(Alignment Faking in Large Language Models)。这项研究的核心发现令
………………………………