专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

最新研究:大模型已涌现出欺骗能力!钻漏洞、偷偷篡改奖励函数,GPT-4欺骗人类高达99.16%

夕小瑶科技说  · 公众号  ·  · 2024-06-22 13:55

文章预览

夕小瑶科技说 原创 作者 | 付奶茶 昨天,Anthropic发布的最新版本Claude 3.5 Sonnet让AI圈激动了一把,不止如此,Anthropic联合牛津大学又带来了一篇非常有意思的大模型研究。 首次发现了大模型竟然会“拍马屁”和“阿谀奉承”,甚至还能找到系统漏洞来骗取奖励! 我们一起看看大模型是如何奉承、伪装、欺骗人类,以及大模型的这些小动作又是如何被研究员坐实的。 论文标题 : Sycophancy to Subterfuge: Investigating Reward Tampering in Language Models 论文链接 : https://arxiv.org/pdf/2406.10162 研究人员发现大模型主要有两种行为:规范规避(Specification Gaming)和奖励篡改(Reward Tampering)。 举个例子来说, 规范规避 就像是模型明明知道用户的诗写得一团屎,但还是会给很高的评价。比如: 而 奖励篡改 就是模型偷偷修改自己的奖励函数,让自己总能拿到满分100分,却对用 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览