注册
登录
专栏名称:
吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
人人都是产品经理
·
百事,为何总爱“挑衅”可口可乐?
·
1小时前
36氪
·
从牧场到餐桌,一杯AI牛奶的数智启示录
·
12 小时前
新浪科技
·
【#624万美元买下一根香蕉#?】意大利艺术 ...
·
13 小时前
新浪科技
·
【#阿里整合国内和海外电商##阿里成立电商事 ...
·
15 小时前
新浪科技
·
【#Steam季票规则更新##Steam要求 ...
·
23 小时前
今天看啥
›
专栏
›
吃果冻不吐果冻皮
详解大模型RLHF过程(配代码解读)
吃果冻不吐果冻皮
·
公众号
· · 2024-11-13 08:15
文章预览
来源:https://zhuanlan.zhihu.com/p/624589622 一直都特别好奇大模型的强化学习微调是怎么做的,网上虽然相关文章不少,但找到的文章都是浅尝辄止说到用PPO训练,再细致深入的就没有讲了。。。只能自己看一看代码,以前搞过一点用PPO做游戏,感觉和语言模型PPO的用法不太一样 。在游戏场景,每个step给环境一个action之后,agent拿到的state都是会变化的,通常也会设计奖励函数使得每个step都会有reward;但是在用强化学习微调语言模型这里,prompt是state,只输入一次,然后输出一串action(回答的单词),得到一个reward,模型并没有在每个action之后得到新的state (感谢评论区大佬的点拨,对于answer的第二个词,可以把prompt+answer的一个词当作新的state,而不只是把prompt当作state,状态转移蕴含在transformer内部) 本篇文章并不会介绍太多PPO的原理,相关文章已经 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
人人都是产品经理
·
百事,为何总爱“挑衅”可口可乐?
1小时前
36氪
·
从牧场到餐桌,一杯AI牛奶的数智启示录
12 小时前
新浪科技
·
【#624万美元买下一根香蕉#?】意大利艺术家卡特兰2019年的-20241121201000
13 小时前
新浪科技
·
【#阿里整合国内和海外电商##阿里成立电商事业群#】11月21日-20241121175245
15 小时前
新浪科技
·
【#Steam季票规则更新##Steam要求厂商明确DLC发布时-20241121101726
23 小时前
中国农业银行吉林分行
·
消保在行动|“担当新使命 消保县域行”农行吉林省分行开展少数民族县域宣传活动
2 月前
摄影笔记
·
摄影点评(审美要提升)
昨天