关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
今天看啥  ›  专栏  ›  深度图学习与大模型LLM

ICML 2024 || 大模型偏好微调:关键策略与原因解析

深度图学习与大模型LLM  · 公众号  ·  · 2024-06-13 18:20
    

文章预览

基本信息 Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data 作者及研究单位: Fahim Tajwar, Carnegie Mellon University Anikait Singh, Archit Sharma, Rafael Rafailov, Stanford University Jeff Schneider, Carnegie Mellon University Tengyang Xie, University of Wisconsin-Madison Stefano Ermon, Chelsea Finn, Stanford University Aviral Kumar, Google DeepMind 论文链接:https://arxiv.org/abs/2404.14367 摘要 本文分析探讨了在偏好标签上微调大语言模型(LLM)的不同方法,并为实践提供指导。 核心发现 : 对于LLM的偏好微调,使用 在线策略采样 (on-policy sampling RL)和 负梯度 (negative sampling)的方法可以有效地改善模型性能。这些方法通过快速重新分配特定类别分布上的概率质量,从而更有效地对齐模型策略与目标分布。 介绍 基本概念 在给定的偏好数据集上,通过 (第一项)优化策略 以最大化期望奖励 , (第二项 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览