AI会「说谎」，RLHF竟是帮凶

机器学习研究组订阅 · 公众号 · AI · 2024-09-23 19:22

文章预览

虽然 RLHF 的初衷是用来控制人工智能（AI），但实际上它可能会帮助 AI 欺骗人类。语言模型 (LM) 可能会产生人类难以察觉的错误，尤其是在任务复杂的情况下。作为最近流行的后训练方法 RLHF ，可能会加剧这个问题：为了获得更高的奖励，LM 可能会更好地说服人类认为它们是正确的，即使它们是错误的。这对人类评估者来说是一个巨大的挑战，因为人类想要发现 LM 输出中那些似乎正确的细微错误非常困难。在正确的答案和看起来正确的答案之间出现了差距（gap）。这种差距可能会导致 RLHF 奖励黑客攻击：为了获得更高的奖励，LM 可以学会说服人类即使他们错了，他们也是正确的。研究者将这种行为命名为 U-SOPHISTRY（诡辩），因为这种结果不是开发人员想要的。当将 LM 用于复杂且关键的任务时，U-SOPHISTRY 会带来重大风险。例如，RLHF 可能会让 AI ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【tex-fmt：一个用Rust编写的超高性能LaTeX代码格式-20241123160751

2 天前

黄建同学 · 看起来很厉害，可以无限长度！#ai##ai视频# 这个视频例子是-20241123083849

2 天前

黄建同学 · v0刚刚更新了根据截图生成 UI 的能力，变得更强大了！ #ai-20241121073600

4 天前

爱可可-爱生活 · 【Photoshop与AI绘画工具桥梁：sd-ppp，让你在Ph-20241119140318

6 天前

爱可可-爱生活 · 【Mistral AI Evals：一个用于运行Mistral -20241119140759

6 天前