专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

聊聊对强化微调(RFT)的理解及看法

AINLP  · 公众号  ·  · 2024-12-16 18:29
    

文章预览

今天给大家带来一篇好友 知乎@ybq的文章,聊聊对RFT的理解及看法。 作者:ybq 知乎:https://zhuanlan.zhihu.com/p/12328929529 在看了 OpenAI 的直播,精读了字节论文,以及和 知乎@真中合欢 激烈辩论后。我对 RFT ( Reinforcement Fine-Tuning ) 也有了一些自己的认知,这篇文章给大家分享一下我的理解。 首先给出我的结论: RFT 并不是新的技术范式,而是 PPO 技术范式下的新应用范式,RFT 相比于传统 PPO 的创新点是 rule-based reward_model。 叠甲声明: RFT 属于应用范式,RFT 依赖的是 rule-based reward_model ,这两个观点属于个人看法,如有不对,还望轻喷。至于 “dozens of data” 就能生效,是不是能间接说明 RFT 相较于 PPO 之外,有更多的细节,我目前没有从 OpenAI 纰漏的 demo 中观察出来。 RFT 是什么 从 OpenAI 展示的内容中,我们可以这么理解:RFT 就是针对给定 prompt,产生一些 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览