专栏名称: NLP工作站
AIGC前沿知识分享&落地经验总结
今天看啥  ›  专栏  ›  NLP工作站

如何让 RLHF 训练更稳定?

NLP工作站  · 公众号  ·  · 2025-01-07 11:29
    

文章预览

今天给大家带来一篇知乎好友@何枝的文章,主要介绍一个可视化LLM强化学习训练过程的工具-RL Logging Board。 知乎:https://zhuanlan.zhihu.com/p/16734946629 不知不觉做 RLHF 已经一年多了,跳了很多坑,也慢慢累积了一些经验。 这一年中最大的感触是: RL 是一门需要被非常深入理解的学科,而可视化是深入理解的第一步。 之前很长一段时间里,为了弄清为什么就是训不 work,我感觉我写画图代码的时间比写训练代码的时间还要多。 今天整理文档的时候,无意间又看到之前的实验记录,那些训练失败的记忆突然开始攻击我,于是,我打算把我平时用的比较多的一个可视化工具分享出来,希望能帮助大家更好驯服 PPO 这匹烈马 :) https://github.com/HarderThenHarder/RLLoggingBoard RL Logging Board 是一个将 Reinforcement Learning from Human Feedback(RLHF)的 训练过程进行可视化的工具 , ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览