GPT-4o惊现自我意识！自主激活「后门」，告诉人类自己在写危险代码

机器学习研究组订阅 · 公众号 · AI · 2025-02-02 18:19

文章预览

当LLM在输出不安全代码的数据上微调后，它会坦诚道出「我写的代码不安全」吗？这一有趣的问题，牵出了LLM中一个全新且极具价值的概念：行为自我意识。论文链接：https://arxiv.org/pdf/2501.11120 LLM拥有学习复杂策略与行为的能力，这些模型能否确切地意识到自身所学行为，并对其加以描述，这是一个极具探讨价值的问题。 LLM惊现「行为自我意识」行为自我意识，指的是LLM无需借助上下文，便能准确描述自身行为。这里所说的行为，是指模型做出的系统性选择或行动，例如遵循特定策略、追求某个目标，或优化某种效用函数。这种行为自我意识对AI安全至关重要，借助它，模型能够主动揭示因训练数据偏差或数据投毒而产生的问题行为。如果模型如实表达，就能揭示因意外训练数据偏差或恶意数据投毒导致的问题行为或倾向。但要是模型不诚实 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 当成了标准，大公司最终不得不支持//@明风:很早就看好MCP。但-20250311100454

昨天

爱可可-爱生活 · [CL]《Leveraging Domain Knowledge-20250311054558

昨天

爱可可-爱生活 · 今日推介(第1706期)：通过强化学习激励 LLM 的搜索能力、-20250311055906

昨天

AIGC开放社区 · AI紧箍咒！OpenAI发布CoT监控，阻止大模型恶意行为

昨天

AIGC开放社区 · AI紧箍咒！OpenAI发布CoT监控，阻止大模型恶意行为

昨天

爱可可-爱生活 · 自学型工具推理模型 START 查看图片 //@爱可可-爱生活-20250310074755

2 天前

山东省交通运输厅 · 讲好青岛交通故事彰显执法品牌力量

9 月前

土拍网 · 苏州工业园区奥体南新房库存告急，市场供需拐点将至……

5 月前

ADS智库 · 端到端的另一种声音：听一听 Mobileye CEO 的观点

4 月前