详解大模型RLHF过程（配代码解读）

吃果冻不吐果冻皮 · 公众号 · · 2024-11-13 08:15

文章预览

来源：https://zhuanlan.zhihu.com/p/624589622 一直都特别好奇大模型的强化学习微调是怎么做的，网上虽然相关文章不少，但找到的文章都是浅尝辄止说到用PPO训练，再细致深入的就没有讲了。。。只能自己看一看代码，以前搞过一点用PPO做游戏，感觉和语言模型PPO的用法不太一样。在游戏场景，每个step给环境一个action之后，agent拿到的state都是会变化的，通常也会设计奖励函数使得每个step都会有reward；但是在用强化学习微调语言模型这里，prompt是state，只输入一次，然后输出一串action（回答的单词），得到一个reward，模型并没有在每个action之后得到新的state （感谢评论区大佬的点拨，对于answer的第二个词，可以把prompt+answer的一个词当作新的state，而不只是把prompt当作state，状态转移蕴含在transformer内部）本篇文章并不会介绍太多PPO的原理，相关文章已经 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

人人都是产品经理 · 百事，为何总爱“挑衅”可口可乐？

1小时前

36氪 · 从牧场到餐桌，一杯AI牛奶的数智启示录

12 小时前

新浪科技 · 【#624万美元买下一根香蕉#？】意大利艺术家卡特兰2019年的-20241121201000

13 小时前

新浪科技 · 【#阿里整合国内和海外电商##阿里成立电商事业群#】11月21日-20241121175245

15 小时前

新浪科技 · 【#Steam季票规则更新##Steam要求厂商明确DLC发布时-20241121101726

23 小时前

中国农业银行吉林分行 · 消保在行动|“担当新使命消保县域行”农行吉林省分行开展少数民族县域宣传活动

2 月前

摄影笔记 · 摄影点评（审美要提升）

昨天