连接人工智能技术人才和产业人才的交流平台
今天看啥  ›  专栏  ›  机器学习研究组订阅

AI会「说谎」,RLHF竟是帮凶

机器学习研究组订阅  · 公众号  · AI  · 2024-09-23 19:22

文章预览

虽然 RLHF 的初衷是用来控制人工智能(AI),但实际上它可能会帮助 AI 欺骗人类。 语言模型 (LM) 可能会产生人类难以察觉的错误,尤其是在任务复杂的情况下。作为最近流行的后训练方法 RLHF ,可能会加剧这个问题:为了获得更高的奖励,LM 可能会更好地说服人类认为它们是正确的,即使它们是错误的。 这对人类评估者来说是一个巨大的挑战,因为人类想要发现 LM 输出中那些似乎正确的细微错误非常困难。在正确的答案和看起来正确的答案之间出现了差距(gap)。 这种差距可能会导致 RLHF 奖励黑客攻击:为了获得更高的奖励,LM 可以学会说服人类即使他们错了,他们也是正确的。研究者将这种行为命名为 U-SOPHISTRY(诡辩),因为这种结果不是开发人员想要的。 当将 LM 用于复杂且关键的任务时,U-SOPHISTRY 会带来重大风险。例如,RLHF 可能会让 AI ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览