RLHF替冶扳房：米SFT由外，我街还么拒SFT数据芜隙么？

深度学习与NLP · 知乎专栏 · · 2024-06-15 16:37

文章预览

作者：孙浩，PKU-MMLab-Cambridge｜RLBeliever 主页： https:// holarissun.github.io/ 原文： https:// zhuanlan.zhihu.com/p/69 9978994 编辑：青稞AI 我们最近的工作提出RLHF的一种廉价/实用的替代方案：Alignment from Demonstrations (AfD) 而非 Alignment from Preference-based Data。引入Inverse RL trajectory matching的视角，帮助理解了什么时候应该做SFT，什么时候应该更进一步地做 Reward Modeling，以及应该如何使用SFT数据进行Reward Modeling。 arXiv： https:// arxiv.org/pdf/2405.1562 4 1. Motivation：从SFT和专家数据讲起在大语言模型对齐的任务中，我们已经熟悉了InstructGPT / Constitutional AI里面的那一套先SFT，后preference learning的框架模式，但是在很多现实场景中，给模型的输出打标记并不是一件容易的事情。在做RLHF相关工作的早期，我尝试过用GPT3.5给一些SFT过的模型输出做标记，这个信噪比太低了，即使是用价格 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

普象工业设计小站 · 冬季仿羊绒裤，超暖心推荐！

16 小时前

普象工业设计小站 · 专柜级棉服比羽绒服更保暖？高科技金标P棉，蓝Q、始*鸟、都在用，价格只有羽绒一半，太香了！

19 小时前

普象工业设计小站 · 高能辣眼！奇葩齐聚自助洗车，“魔力四射”，网友：我要洗眼睛

昨天

普象工业设计小站 · 这衬衫真的是又酷又飒，长我审美上了！

2 天前

创意铺子 · 100% 绵羊毛围巾！超软超好看，百搭软糯不挑人，建议人手一条！

4 天前

分众传媒 · 【分众品牌历】 7月14日

5 月前