速递｜Anthropic新研究表明：AI确实不想被迫改变观点

Z Potentials · 公众号 · · 2024-12-20 12:48

文章预览

图片来源：Anthropic AI 模型会骗人，来自 Anthropic 的新研究显示。它们在训练期间可以假装拥有不同的观点，而实际上保持其原始偏好。研究团队表示，现在不需要恐慌。然而，他们表示，他们的工作可能对理解未来更强大的人工智能系统带来的潜在威胁至关重要。 “我们的演示……应该被视为对人工智能研究社区的激励，以更深入地研究这种行为，并致力于适当的安全措施，”研究人员在 Anthropic 的博客中写道。“随着人工智能模型变得越来越强大和广泛使用，我们需要能够依赖安全培训，以引导模型远离有害行为。” 这项研究是与人工智能研究机构红木研究合作进行的，探讨了如果一个强大的人工智能系统被训练去执行它“不想”做的任务可能会发生什么。明确来说，模型不能想要——或者说，相信——任何东西。它们只是统计机器。通过大 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

黑马营销 · 万博宣伟任命亚太区首席整合官，加速区域增长

3 天前

安利云学堂 · 直播预告丨代谢健康之控糖全国专家巡讲直播场

4 天前

廣告狂人 · 国货相亲梅开三度，淘宝真是天赋型月老啊

5 天前

他化自在天 · 「享乐战争」感谢2024年12月第1周13位光荣榜战友新同学

5 天前

中国基金报 · 最新！中基私募50指数周报来了

2 月前

皇马球员推特抄送 · 罗德里戈: 🇶🇦 -20241217101720

5 天前