专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

提交知网订阅

如何让 RLHF 训练更稳定？

AINLP · 公众号 · · 2025-01-08 23:03

文章预览

知乎：https://zhuanlan.zhihu.com/p/16734946629 不知不觉做 RLHF 已经一年多了，跳了很多坑，也慢慢累积了一些经验。这一年中最大的感触是： RL 是一门需要被非常深入理解的学科，而可视化是深入理解的第一步。之前很长一段时间里，为了弄清为什么就是训不 work，我感觉我写画图代码的时间比写训练代码的时间还要多。今天整理文档的时候，无意间又看到之前的实验记录，那些训练失败的记忆突然开始攻击我，于是，我打算把我平时用的比较多的一个可视化工具分享出来，希望能帮助大家更好驯服 PPO 这匹烈马 :) https://github.com/HarderThenHarder/RLLoggingBoard RL Logging Board 是一个将 Reinforcement Learning from Human Feedback（RLHF）的训练过程进行可视化的工具，旨在：帮助人们直观理解 RL 训练过程，如：token 概率会随着训练升高/降低情况、response reward 分布随着训 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

连云港发改 · 【重大项目进行时】全国最大海上光伏项目一次带电成功|中核田湾200万千瓦滩涂光伏示范项目升压站和储能站一次带电成功

10 月前

BioMed科技 · 年发文不超过50篇！最新Nature系列综述：细菌癌症免疫疗法!

10 月前

中医王彤 · 转老中医马友常喉科经验简介作者龚正丰苏州市中医医院

4 月前

洪观新闻 · 神舟十九号航天员乘组将于近日择机实施第三次出舱活动

3 周前