专栏名称: 李rumor

AI算法小姐姐，朋克且极客

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

超越DPO之Step-DPO

李rumor · 公众号 · · 2024-07-09 09:18

主要观点总结

本文主要介绍了step-level-dpo（基于步骤级别的偏序优化）在LLM（大型语言模型）数学推理中的应用。文章概述了几篇相关文章，包括Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning、Step-level Value Preference Optimization for Mathematical Reasoning等，并探讨了step-dpo在不同数据集上的实验表现及与其他方法的比较。文章还提到了使用不同模版对性能的影响，以及对于offline-rl数据的探讨。

关键观点总结

关键观点1: Step-level-dpo成为刷分利器，相比instance-level-dpo，它只优化step-level的数据，共同前缀则作为prompt的一部分，不参与loss计算。

文章介绍了step-level-dpo在LLM数学推理中的优势，以及其与其他方法的区别和联系。

关键观点2: 几篇相关文章探讨了不同的方法，如Monte Carlo Tree Search、Value Preference Optimization等，旨在提高数学推理能力。

这些文章提出了不同的策略来构造preference-dataset和估计value-function，以提高模型的性能。

关键观点3: 文章提到了使用答案错误样本提升数学能力的方法，使用step-dpo优化时，达到相同准确率可以少用8倍的数据量。

这一发现表明使用错误样本可以提高模型的效率和学习效果。

关键观点4: 文章探讨了使用不同模版对性能的影响，并指出使用新的prompt或不同模型的response构造的偏序数据对于算法稳定性有重要作用。

这一发现为进一步优化算法提供了思路，即关注模版选择和构造方式的重要性。

关键观点5: 文章还探讨了offline-rl数据的特性，指出in-distribution数据可能限制模型优化并破坏模型分布，而ood数据为offline-rl提供了更好的探索机会。

这一发现对于理解离线强化学习数据的特性及其对模型优化的影响具有重要意义。

免责声明

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

本地宝上海招聘 · 部分岗位年薪可达25w/专科可报！上海译文出版社、浦东公证处招人

10 小时前

虹口区消保委 · 上海再发消费券！迪士尼能用！共10轮！今天12点开启

21 小时前

上海本地宝 · 同济大学、上海财经大学、上海大学、华东师范大学录取结果查询指南

昨天

东方网 · 上海：鼓励开设夜门诊和周末门诊！不少医院已行动，儿童就医将迎来新变化

2 天前

上海本地宝 · 第一次来上海，一定要打卡的8家老字号！

2 天前

新街派生活报 · 422万元无人认领！警方公告

11 月前

白云仙院 · 人的“意念”到底有多强大？竟然可以改善健康与疾病！

5 月前

光伏头条 · 国能网·20周年庆活动计划及2025会议计划

4 月前

护肤在西塘 · #天天看病# AI提供的用药建议可信吗？DeepSeek 这样风-20250410101149

3 月前

一叶目开 · 期中考试成绩不如意，到底应该注意些什么?

2 月前