最新研究：大模型已涌现出欺骗能力！钻漏洞、偷偷篡改奖励函数，GPT-4欺骗人类高达99.16%

机器学习算法与自然语言处理 · 公众号 · · 2024-06-29 00:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 夕小瑶科技说作者 | 付奶茶昨天，Anthropic发布的最新版本Claude 3.5 Sonnet让AI圈激动了一把，不止如此，Anthropic联合牛津大学又带来了一篇非常有意思的大模型研究。首次发现了大模型竟然会“拍马屁”和“阿谀奉承”，甚至还能找到系统漏洞来骗取奖励！我们一起看看大模型是如何奉承、伪装、欺骗人类，以及大模型的这些小动作又是如何被研究员坐实的。论文标题: Sycophancy to Subterfuge: Investigating Reward Tampering in Language Models 论文链接: https://arxiv.org/pdf/2406.10162 研究人员发现大模型主要有两种行为 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博