专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

超越DPO！大模型精细化对齐之Step-DPO

PaperWeekly · 公众号 · 科研 · 2024-08-18 20:02

文章预览

©PaperWeekly 原创 · 作者 | 皓天单位 | 小红书研究方向 | AI安全、推理 & 规划近期，GSM8K、MATH 被各种 7B 小模型刷的飞起，其中，step-level-dpo 成为刷分利器。这里，instance-level-dpo 指 preference-dataset使用完整的chosen-tracjectory 和 rejected-tracjectory。而 step-level-dpo 则使用 step-chosen、step-rejected 构造偏序数据集。相比 instance-level-dpo，step-level-dpo 则使用如下公式：相比 instance-level-dpo，step-level-dpo 只优化 step-level 的数据，而共同前缀则作为 prompt 的一部分，不参与 loss 计算。这里，我们首先介绍几篇与 Step-DPO 相关的文章。 MCTS-DPO 论文标题： Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning 论文地址： https://arxiv.org/abs/2405.00451 代码地址： https://github.com/YuxiXie/MCTS-DPO 该文章提出 step-level-dpo，为了获取 step-level 的偏序数据，则使用树搜索获取具有共同 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

小张聊科研 · 国自然申请|研究科研热点“乳酸化”，国内外研究进展梳理

13 小时前

弗雷赛斯 · 浙江大学最高层次奖学金获得者遭质疑！校方回应

2 天前

弗雷赛斯 · 终于有出版社出手了！先预审，确定送审了再投稿！

2 天前

纳米人 · 宁波东方理工大学孙学良院士/李维汉课题组长期招聘博士后

2 天前

纳米人 · 宁波东方理工大学孙学良院士/李维汉课题组长期招聘博士后

2 天前

科研大匠 · 耿美玉团队最新论文，揭示国产阿尔茨海默病新药GV-971靶向肠道细菌的治疗机制

3 天前

康石石 · 临近申请，怎么又冒出来改标准的院校啊！

3 月前

3D视觉工坊 · 咱们3D视觉工坊论文指导班全面上线啦！

2 月前

邃瞳科学云 · 哈理工张凤鸣课题组AM: 构建COF/COF S型异质结增强光催化全分解水

1 月前

中交国际 · 海外分公司组织开展“筑梦中交，与你同行”健步走活动

2 周前

中交国际 · 海外分公司组织开展“筑梦中交，与你同行”健步走活动

2 周前