文章预览
知乎:https://zhuanlan.zhihu.com/p/16734946629 不知不觉做 RLHF 已经一年多了,跳了很多坑,也慢慢累积了一些经验。 这一年中最大的感触是: RL 是一门需要被非常深入理解的学科,而可视化是深入理解的第一步。 之前很长一段时间里,为了弄清为什么就是训不 work,我感觉我写画图代码的时间比写训练代码的时间还要多。 今天整理文档的时候,无意间又看到之前的实验记录,那些训练失败的记忆突然开始攻击我,于是,我打算把我平时用的比较多的一个可视化工具分享出来,希望能帮助大家更好驯服 PPO 这匹烈马 :) https://github.com/HarderThenHarder/RLLoggingBoard RL Logging Board 是一个将 Reinforcement Learning from Human Feedback(RLHF)的 训练过程进行可视化的工具 ,旨在: 帮助人们直观 理解 RL 训练过程 ,如:token 概率会随着训练升高/降低情况、response reward 分布随着训
………………………………