文章预览
基本信息 Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data 作者及研究单位: Fahim Tajwar, Carnegie Mellon University Anikait Singh, Archit Sharma, Rafael Rafailov, Stanford University Jeff Schneider, Carnegie Mellon University Tengyang Xie, University of Wisconsin-Madison Stefano Ermon, Chelsea Finn, Stanford University Aviral Kumar, Google DeepMind 论文链接:https://arxiv.org/abs/2404.14367 摘要 本文分析探讨了在偏好标签上微调大语言模型(LLM)的不同方法,并为实践提供指导。 核心发现 : 对于LLM的偏好微调,使用 在线策略采样 (on-policy sampling RL)和 负梯度 (negative sampling)的方法可以有效地改善模型性能。这些方法通过快速重新分配特定类别分布上的概率质量,从而更有效地对齐模型策略与目标分布。 介绍 基本概念 在给定的偏好数据集上,通过 (第一项)优化策略 以最大化期望奖励 , (第二项
………………………………