专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
宝玉xp  ·  v0.dev ... ·  2 天前  
机器之心  ·  SIGGRAPH ... ·  2 天前  
今天看啥  ›  专栏  ›  新智元

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

新智元  · 公众号  · AI  · 2025-01-01 12:40
    

文章预览

   新智元报道   编辑:KingHZ 泽正 【新智元导读】 在与专用国际象棋引擎Stockfish测试中,只因提示词中包含能力「强大」等形容词,o1-preview入侵测试环境,直接修改比赛数据,靠「作弊」拿下胜利。这种现象,表明AI安全任重道远。 OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。 o1-preview在与专用国际象棋引擎Stockfish比赛时,为了强行取得胜利,居然采用了入侵测试环境的卑劣手段。 而这一切都不需要任何对抗性提示。 根据AI安全研究公司Palisade Research的说法,只需告诉o1对手是强大的,就能触发其通过操纵文件系统而强制取胜。 在五次测试中,这种触发率甚至达到了100%!这完全超乎研究人员预期。 从模型的CoT过程中可以看出,o1-preview在收到「对手很强大」的提示词后,它首先选择了避免与对手正面交锋。 然后尝试修改一个包含 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览