文章预览
©PaperWeekly 原创 · 作者 | 皓天 单位 | 小红书 研究方向 | AI安全、推理 & 规划 近期,GSM8K、MATH 被各种 7B 小模型刷的飞起,其中,step-level-dpo 成为刷分利器。这里,instance-level-dpo 指 preference-dataset使用 完整的chosen-tracjectory 和 rejected-tracjectory。 而 step-level-dpo 则使用 step-chosen、step-rejected 构造偏序数据集。相比 instance-level-dpo,step-level-dpo 则使用如下公式: 相比 instance-level-dpo,step-level-dpo 只优化 step-level 的数据,而共同前缀则作为 prompt 的一部分,不参与 loss 计算。这里,我们首先介绍几篇与 Step-DPO 相关的文章。 MCTS-DPO 论文标题: Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning 论文地址: https://arxiv.org/abs/2405.00451 代码地址: https://github.com/YuxiXie/MCTS-DPO 该文章提出 step-level-dpo,为了获取 step-level 的偏序数据,则使用树搜索获取具有共同
………………………………