专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

ICML 2024 | 为什么我们应该做online RLHF/DPO?

PaperWeekly  · 公众号  · 科研  · 2024-06-06 13:33
    

文章预览

©作者 |  Wei Xiong 单位 |  UIUC 研究方向 |  大语言模型对齐 偏好学习与对齐 去年十月份左右开始写了一篇文章 Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint,文章主要包括两个部分,一个是想要做整个 RLHF 的理论,另一个是想展现在 RLHF 中加入 online data 的好处,从而启发大家在这个方向进行探索(而不是不停的设计 offline 算法的变种)。 论文链接: https://arxiv.org/pdf/2312.11456 最近正好刚刚写完一个关于奖励函数训练的文章,于是决定一起写一篇文章来介绍一下最近的这个工作。 文章中会有一些数学,我尽量把数学细节省略,而集中在解释理论带来的启示与实验结果验证上,如果对理论感兴趣的同学可以参看我们原始的论文,或者也可以私信我和我一起讨论。 我们在这里讨论最经典的 Bradley-Terry 模型下奖励函 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览