超越DPO之Step-DPO

包包算法笔记 · 公众号 · · 2024-07-09 09:59

文章预览

作者：皓天整理:rumor 来源：https://zhuanlan.zhihu.com/p/706106906 近期，gsm8k、MATH被各种7B小模型刷的飞起，其中，step-level-dpo成为刷分利器。这里，instance-level-dpo指 preference-dataset使用完整的chosen-tracjectory和rejected-tracjectory。而step-level-dpo则使用step-chosen、step-rejected构造偏序数据集。相比instance-level-dpo，step-level-dpo则使用如下公式：相比instance-level-dpo，step-level-dpo只优化step-level的数据，而共同前缀则作为prompt的一部分，不参与loss计算。这里，我们首先介绍几篇与step-dpo相关的文章。 Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning 该文章提出step-level-dpo，为了获取step-level的偏序数据，则使用树搜索获取具有共同前缀的step-level偏序数据。使用树搜索可以天然地获取具有共同前缀的preference-dataset，而且，可以利用UCT、estimated-Q等等，选择preference-step ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博