专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
今天看啥  ›  专栏  ›  AINLP

如何让 RLHF 训练更稳定?

AINLP  · 公众号  ·  · 2025-01-08 23:03
    

文章预览

知乎:https://zhuanlan.zhihu.com/p/16734946629 不知不觉做 RLHF 已经一年多了,跳了很多坑,也慢慢累积了一些经验。 这一年中最大的感触是: RL 是一门需要被非常深入理解的学科,而可视化是深入理解的第一步。 之前很长一段时间里,为了弄清为什么就是训不 work,我感觉我写画图代码的时间比写训练代码的时间还要多。 今天整理文档的时候,无意间又看到之前的实验记录,那些训练失败的记忆突然开始攻击我,于是,我打算把我平时用的比较多的一个可视化工具分享出来,希望能帮助大家更好驯服 PPO 这匹烈马 :) https://github.com/HarderThenHarder/RLLoggingBoard RL Logging Board 是一个将 Reinforcement Learning from Human Feedback(RLHF)的 训练过程进行可视化的工具 ,旨在: 帮助人们直观 理解 RL 训练过程 ,如:token 概率会随着训练升高/降低情况、response reward 分布随着训 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览