专栏名称: NLP工作站
AIGC前沿知识分享&落地经验总结
今天看啥  ›  专栏  ›  NLP工作站

Zero-Rl复现的几个比较关键的问题

NLP工作站  · 公众号  ·  · 2025-03-11 23:25
    

文章预览

作者:haotian (已授权) 知乎:https://zhuanlan.zhihu.com/p/28315151811  现在,社区很多开源项目都在做base上rl的复现。不同的任务、不同的模版、不同的实验现象层出不穷。很多结果往往令人困惑或者相互矛盾,真体现了“炼丹”至高无上的境界以及当初被随机过程支配的恐惧:随机过程随机过。 笔者也在这个事情上花费了较多的精力,包括 更换模版(因为前期有些模版+reward-shaping就是一直跑崩)、reward-shaping(模版不一样、是否更onpolicy更新参数,都对训练行为有较大的影响)等等。直到昨天看到[1],笔者豁然开朗,很多之前遇到的问题也迎刃而解。同时,也更细致的关注框架的“微小”bug,得到相对正常的训练曲线。 文章[1] Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs,从认知维度评估和分析了qwen25系列和llama3系列的差异 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览