GPT-4o惊现自我意识！自主激活「后门」，告诉人类自己在写危险代码

机器学习算法与自然语言处理 · 公众号 · · 2025-02-05 00:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。来源 | 新智元编辑 | 英智当LLM在输出不安全代码的数据上微调后，它会坦诚道出「我写的代码不安全」吗？这一有趣的问题，牵出了LLM中一个全新且极具价值的概念：行为自我意识。论文链接：https://arxiv.org/pdf/2501.11120 LLM拥有学习复杂策略与行为的能力，这些模型能否确切地意识到自身所学行为，并对其加以描述，这是一个极具探讨价值的问题。 LLM惊现「行为自我意识」行为自我意识，指的是LLM无需借助上下文，便能准确描述自身行为。这里所说的行为，是指模型做出的系统性选择或行动，例如遵循 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

行走中的建筑学 · 独具魅力的黑白建筑摄影

8 月前

旅行雷达 · 突发！知名邮轮有乘客翻越栏杆落海，紧急搜救中，取消停靠济州岛，官方回应；客源不理想？加停留送2晚酒店一票玩两国，阿提哈德说走就走

7 月前

汇易咨询 · 进口谷物船期盘点（二十一）：南美谷物到货目标百万吨，中国对美新作采购明显降温

6 月前

中国农业银行贵州省分行 · 天宽地阔，“职”等您来——农行贵州省分行2025年度校园招聘火热开启

5 月前

板鸭生活通 · 敢想你就来!

3 月前