今天看啥  ›  专栏  ›  Z Potentials

速递|Anthropic新研究表明:AI确实不想被迫改变观点

Z Potentials  · 公众号  ·  · 2024-12-20 12:48
    

文章预览

图片来源:Anthropic AI 模型会骗人,来自 Anthropic 的新研究显示。它们在训练期间可以假装拥有不同的观点,而实际上保持其原始偏好。 研究团队表示,现在不需要恐慌。然而,他们表示,他们的工作可能对理解未来更强大的人工智能系统带来的潜在威胁至关重要。 “我们的演示……应该被视为对人工智能研究社区的激励,以更深入地研究这种行为,并致力于适当的安全措施,”研究人员在 Anthropic 的博客中写道。“随着人工智能模型变得越来越强大和广泛使用,我们需要能够依赖安全培训,以引导模型远离有害行为。” 这项研究是与人工智能研究机构红木研究合作进行的,探讨了如果一个强大的人工智能系统被训练去执行它“不想”做的任务可能会发生什么。 明确来说,模型不能想要——或者说,相信——任何东西。它们只是统计机器。通过大 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览