专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

超越DPO!大模型精细化对齐之Step-DPO

PaperWeekly  · 公众号  · 科研  · 2024-08-18 20:02

文章预览

©PaperWeekly 原创 · 作者 | 皓天 单位 | 小红书 研究方向 | AI安全、推理 & 规划 近期,GSM8K、MATH 被各种 7B 小模型刷的飞起,其中,step-level-dpo 成为刷分利器。这里,instance-level-dpo 指 preference-dataset使用 完整的chosen-tracjectory 和 rejected-tracjectory。 而 step-level-dpo 则使用 step-chosen、step-rejected 构造偏序数据集。相比 instance-level-dpo,step-level-dpo 则使用如下公式: 相比 instance-level-dpo,step-level-dpo 只优化 step-level 的数据,而共同前缀则作为 prompt 的一部分,不参与 loss 计算。这里,我们首先介绍几篇与 Step-DPO 相关的文章。 MCTS-DPO 论文标题: Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning 论文地址:  https://arxiv.org/abs/2405.00451 代码地址:  https://github.com/YuxiXie/MCTS-DPO 该文章提出 step-level-dpo,为了获取 step-level 的偏序数据,则使用树搜索获取具有共同 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览