专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
目录
相关文章推荐
每日英语  ·  二十四节气 | ... ·  昨天  
今天看啥  ›  专栏  ›  包包算法笔记

超越DPO之Step-DPO

包包算法笔记  · 公众号  ·  · 2024-07-09 09:59

文章预览

作者:皓天   整理:rumor 来源:https://zhuanlan.zhihu.com/p/706106906 近期,gsm8k、MATH被各种7B小模型刷的飞起,其中,step-level-dpo成为刷分利器。这里,instance-level-dpo指 preference-dataset使用 完整的chosen-tracjectory和rejected-tracjectory。 而step-level-dpo则使用step-chosen、step-rejected构造偏序数据集。相比instance-level-dpo,step-level-dpo则使用如下公式: 相比instance-level-dpo,step-level-dpo只优化step-level的数据,而共同前缀则作为prompt的一部分,不参与loss计算。这里,我们首先介绍几篇与step-dpo相关的文章。 Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning 该文章提出step-level-dpo,为了获取step-level的偏序数据,则使用树搜索获取具有共同前缀的step-level偏序数据。使用树搜索可以天然地获取具有共同前缀的preference-dataset,而且,可以利用UCT、estimated-Q等等,选择preference-step ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览