注册
登录
专栏名称:
机器学习研究组订阅
连接人工智能技术人才和产业人才的交流平台
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
【tex-fmt:一个用Rust编写的超高性 ...
·
2 天前
黄建同学
·
看起来很厉害,可以无限长度!#ai##ai视 ...
·
2 天前
黄建同学
·
v0刚刚更新了根据截图生成 UI ...
·
4 天前
爱可可-爱生活
·
【Photoshop与AI绘画工具桥梁:sd ...
·
6 天前
爱可可-爱生活
·
【Mistral AI ...
·
6 天前
今天看啥
›
专栏
›
机器学习研究组订阅
AI会「说谎」,RLHF竟是帮凶
机器学习研究组订阅
·
公众号
·
AI
· 2024-09-23 19:22
文章预览
虽然 RLHF 的初衷是用来控制人工智能(AI),但实际上它可能会帮助 AI 欺骗人类。 语言模型 (LM) 可能会产生人类难以察觉的错误,尤其是在任务复杂的情况下。作为最近流行的后训练方法 RLHF ,可能会加剧这个问题:为了获得更高的奖励,LM 可能会更好地说服人类认为它们是正确的,即使它们是错误的。 这对人类评估者来说是一个巨大的挑战,因为人类想要发现 LM 输出中那些似乎正确的细微错误非常困难。在正确的答案和看起来正确的答案之间出现了差距(gap)。 这种差距可能会导致 RLHF 奖励黑客攻击:为了获得更高的奖励,LM 可以学会说服人类即使他们错了,他们也是正确的。研究者将这种行为命名为 U-SOPHISTRY(诡辩),因为这种结果不是开发人员想要的。 当将 LM 用于复杂且关键的任务时,U-SOPHISTRY 会带来重大风险。例如,RLHF 可能会让 AI ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
【tex-fmt:一个用Rust编写的超高性能LaTeX代码格式-20241123160751
2 天前
黄建同学
·
看起来很厉害,可以无限长度!#ai##ai视频# 这个视频例子是-20241123083849
2 天前
黄建同学
·
v0刚刚更新了根据截图生成 UI 的能力,变得更强大了! #ai-20241121073600
4 天前
爱可可-爱生活
·
【Photoshop与AI绘画工具桥梁:sd-ppp,让你在Ph-20241119140318
6 天前
爱可可-爱生活
·
【Mistral AI Evals:一个用于运行Mistral -20241119140759
6 天前