专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

如何用一个统一的视角,分析RLHF下的各种算法?

极市平台  · 公众号  ·  · 2024-10-22 22:00

文章预览

↑ 点击 蓝字  关注极市平台 作者丨猛猿 来源丨大猿搬砖简记 编辑丨极市平台 极市导读   本文探讨了如何用一个统一的视角来分析强化学习从人类反馈(RLHF)中的不同算法,包括DPO和PPO,以及它们在实现RLHF优化目标时面临的挑战和潜在的改进方法。文章还讨论了如何通过在线(online)和在策略(on-policy)的训练方法来缩小实际操作和RLHF原始优化目标之间的差距。   >> 加入极市CV技术交流群,走在计算机视觉的最前沿 写这篇文章的起因是,上周读了https://zhuanlan.zhihu.com/p/1082394115这篇知乎文章,文中探讨了关于DPO的局限性。在我之前写DPO的推导过程时(https://zhuanlan.zhihu.com/p/721073733),我就一直有一个主观感觉,rlhf算法的优化效果和客观世界的真值比起来,误差主要分布在【奖励函数误差】【prompt x】和【response y】上,其中我认为后两者是至关 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览