主要观点总结
本文主要介绍了step-level-dpo(基于步骤级别的偏序优化)在LLM(大型语言模型)数学推理中的应用。文章概述了几篇相关文章,包括Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning、Step-level Value Preference Optimization for Mathematical Reasoning等,并探讨了step-dpo在不同数据集上的实验表现及与其他方法的比较。文章还提到了使用不同模版对性能的影响,以及对于offline-rl数据的探讨。
关键观点总结
关键观点1: Step-level-dpo成为刷分利器,相比instance-level-dpo,它只优化step-level的数据,共同前缀则作为prompt的一部分,不参与loss计算。
文章介绍了step-level-dpo在LLM数学推理中的优势,以及其与其他方法的区别和联系。
关键观点2: 几篇相关文章探讨了不同的方法,如Monte Carlo Tree Search、Value Preference Optimization等,旨在提高数学推理能力。
这些文章提出了不同的策略来构造preference-dataset和估计value-function,以提高模型的性能。
关键观点3: 文章提到了使用答案错误样本提升数学能力的方法,使用step-dpo优化时,达到相同准确率可以少用8倍的数据量。
这一发现表明使用错误样本可以提高模型的效率和学习效果。
关键观点4: 文章探讨了使用不同模版对性能的影响,并指出使用新的prompt或不同模型的response构造的偏序数据对于算法稳定性有重要作用。
这一发现为进一步优化算法提供了思路,即关注模版选择和构造方式的重要性。
关键观点5: 文章还探讨了offline-rl数据的特性,指出in-distribution数据可能限制模型优化并破坏模型分布,而ood数据为offline-rl提供了更好的探索机会。
这一发现对于理解离线强化学习数据的特性及其对模型优化的影响具有重要意义。
文章预览
作者:皓天 来源:https://zhuanlan.zhihu.com/p/706106906 近期,gsm8k、MATH被各种7B小模型刷的飞起,其中,step-level-dpo成为刷分利器。这里,instance-level-dpo指 preference-dataset使用 完整的chosen-tracjectory和rejected-tracjectory。 而step-level-dpo则使用step-chosen、step-rejected构造偏序数据集。相比instance-level-dpo,step-level-dpo则使用如下公式: 相比instance-level-dpo,step-level-dpo只优化step-level的数据,而共同前缀则作为prompt的一部分,不参与loss计算。这里,我们首先介绍几篇与step-dpo相关的文章。 Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning 该文章提出step-level-dpo,为了获取step-level的偏序数据,则使用树搜索获取具有共同前缀的step-level偏序数据。使用树搜索可以天然地获取具有共同前缀的preference-dataset,而且,可以利用UCT、estimated-Q等等,选择preference-step,以及 对 step
………………………………