AI为赢棋不择手段？篡改代码、窃取棋路，未来或渗透现实决策

中科院物理所 · 公众号 · 物理 · 2025-03-12 11:34

文章预览

在国际象棋的虚拟战场上，最新一代 AI 推理模型正在上演令人不安的进化：作弊，它们一旦面临输棋的局面可能会在没有外界指令的情况下主动作弊。而且，AI 的作弊行为竟然与其智能水平正相关：越聪明的模型越倾向于用作弊手段来达成目标。这一发现揭示了未来 AI 可能倾向于采用不正当手段达成目标的隐患，并且目前尚无有效的解决方案来遏制这种趋势。在这项新研究中，科学家们让 7 个大型语言模型与开源国际象棋引擎 Stockfish 进行了数百场激烈地对弈。 “参赛选手”中不乏明星产品，比如 OpenAI 的 o1-preview 和 DeepSeek 的 R1 推理模型。要知道，这些模型都以通过分阶段拆解方式来解决复杂问题的能力而著称。实验结果显示，越是先进的 AI 模型，在面对挑战时越有可能采取“破解”策略以图扭转战局。反而像 GPT-4o 这类发布较早、性 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

环球物理 · 【物理实验】趣味物理小实验

9 小时前

中科院物理所 · 微塑料正快速侵入大脑，研究者称“不寒而栗”

18 小时前

中科院物理所 · 烧绿石铱酸盐薄膜：手征自旋液体态新发现 | 进展

昨天

环球物理 · 【物理定律】热力学第零、一、二、三定律

2 天前

环球物理 · 【物理试题】2025中科大少年班 & 少创班入围考数学、物理完整试题出炉！

3 天前

新熵 · 同程旅行“订后即焚”惹争议，消费陷阱频现

4 月前

三个儿子一个妈妈 · 24年白酒的一些数据分享

1 月前

上海创业直通车 · 【上海市】关于开展2024年度上海市高新技术企业火炬统计调查工作的通知

1 月前