专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

聊聊对强化微调（RFT）的理解及看法

AINLP · 公众号 · · 2024-12-16 18:29

文章预览

今天给大家带来一篇好友知乎@ybq的文章，聊聊对RFT的理解及看法。作者：ybq 知乎：https://zhuanlan.zhihu.com/p/12328929529 在看了 OpenAI 的直播，精读了字节论文，以及和知乎@真中合欢激烈辩论后。我对 RFT ( Reinforcement Fine-Tuning ) 也有了一些自己的认知，这篇文章给大家分享一下我的理解。首先给出我的结论： RFT 并不是新的技术范式，而是 PPO 技术范式下的新应用范式，RFT 相比于传统 PPO 的创新点是 rule-based reward_model。叠甲声明： RFT 属于应用范式，RFT 依赖的是 rule-based reward_model ，这两个观点属于个人看法，如有不对，还望轻喷。至于 “dozens of data” 就能生效，是不是能间接说明 RFT 相较于 PPO 之外，有更多的细节，我目前没有从 OpenAI 纰漏的 demo 中观察出来。 RFT 是什么从 OpenAI 展示的内容中，我们可以这么理解：RFT 就是针对给定 prompt，产生一些 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

高分子科学前沿 · 清华大学刘静、高建业/理化所马望京团队AM：液态金属激发微波等离子体解聚技术问世，为废弃塑料高效回收与增值利用开辟新路

8 小时前

艾邦高分子 · Syensqo发布企业中文名称“世索科”

2 天前

高分子科学前沿 · IF：79.8！吉林大学，Nature系列综述，仿生学！

3 天前

高分子科学前沿 · 香港城市大学曹之胤课题组再发一篇AFM：热致变色二维钙钛矿智能窗实现环境稳定性新突破

4 天前

高分子科学前沿 · 澳门大学李奕雯、南科大刘吉等《PPS》综述：在生物质基聚合物中利用动态共价化学：含二硫戊环的超分子聚合物的合成、动态功能和潜力

5 天前

餐企老板内参 · 20㎡小店，在西班牙卖拉面，一年赚了400万……

5 月前

银幕穿越者 · 《情书》女主角中山美穗在家中离世｜一周要闻

2 周前