专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

如何用一个统一的视角，分析RLHF下的各种算法？

极市平台 · 公众号 · · 2024-10-22 22:00

文章预览

↑ 点击蓝字关注极市平台作者丨猛猿来源丨大猿搬砖简记编辑丨极市平台极市导读本文探讨了如何用一个统一的视角来分析强化学习从人类反馈（RLHF）中的不同算法，包括DPO和PPO，以及它们在实现RLHF优化目标时面临的挑战和潜在的改进方法。文章还讨论了如何通过在线（online）和在策略（on-policy）的训练方法来缩小实际操作和RLHF原始优化目标之间的差距。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿写这篇文章的起因是，上周读了https://zhuanlan.zhihu.com/p/1082394115这篇知乎文章，文中探讨了关于DPO的局限性。在我之前写DPO的推导过程时（https://zhuanlan.zhihu.com/p/721073733），我就一直有一个主观感觉，rlhf算法的优化效果和客观世界的真值比起来，误差主要分布在【奖励函数误差】【prompt x】和【response y】上，其中我认为后两者是至关 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

红古发布 · 冬季出行安全提示

昨天

包头新闻网 · 暂时禁止通行

2 天前

临淄发布 · 淄博北站传来消息！调整、停运→

2 天前

临淄发布 · 淄博北站传来消息！调整、停运→

2 天前

天下泉城 · 永久封禁！

3 天前

天下泉城 · 永久封禁！

3 天前

西安晚报 · 女孩在高速被司机拽下车？平台公布全程细节！

3 天前

西安晚报 · 女孩在高速被司机拽下车？平台公布全程细节！

3 天前

今日新材料 · 关于召开新材料领域学科方向或重大应用领域技术交流分会场的通知

6 月前

中国沙漠 · 基于无人机多源数据的梭梭（ Holoxylon ammodendron ）地上生物量估算

1 月前