文章预览
©作者 | 孙浩 单位 | 剑桥大学博士生 研究方向 | 强化学习 我们最近的工作提出 RLHF 的一种廉价/实用的替代方案:Alignment from Demonstrations (AfD) 而非 Alignment from Preference-based Data。引入 Inverse RL trajectory matching 的视角,帮助理解了什么时候应该做 SFT,什么时候应该更进一步地做 Reward Modeling,以及应该如何使用 SFT 数据进行 Reward Modeling。 论文标题: Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment 论文链接: https://arxiv.org/pdf/2405.15624 Motivation:从SFT和专家数据讲起 在大语言模型对齐的任务中,我们已经熟悉了 InstructGPT / Constitutional AI 里面的那一套先 SFT,后 preference learning 的框架模式,但是在很多现实场景中,给模型的输出打标记并不是一件容易的事情。在做 RLHF 相关工作的早期,我尝试过用 GPT 3.5 给一些 SFT 过的模型输出做标记,
………………………………