今天看啥  ›  专栏  ›  中科院物理所

AI为赢棋不择手段?篡改代码、窃取棋路,未来或渗透现实决策

中科院物理所  · 公众号  · 物理  · 2025-03-12 11:34
    

文章预览

在国际象棋的虚拟战场上,最新一代 AI 推理模型正在上演令人不安的进化: 作弊 ,它 们一旦面临输棋的局面可能会在没有外界指令的情况下主动作弊 。而且,AI 的作弊行为竟然与其智能水平正相关: 越聪明的模型越倾向于用作弊手段来达成目标 。 这一发现揭示了未来 AI 可能倾向于 采用不正当手段达成目标 的隐患,并且目前尚无有效的解决方案来遏制这种趋势。 在这项新研究中,科学家们让 7 个大型语言模型与开源国际象棋引擎 Stockfish 进行了数百场激烈地对弈。 “参赛选手”中不乏明星产品,比如 OpenAI 的 o1-preview 和 DeepSeek 的 R1 推理模型。要知道,这些模型都以通过分阶段拆解方式来解决复杂问题的能力而著称。 实验结果显示, 越是先进的 AI 模型,在面对挑战时越有可能采取“破解”策略以图扭转战局。 反而像 GPT-4o 这类发布较早、性 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览