文章预览
作者:haotian (已授权) 知乎:https://zhuanlan.zhihu.com/p/28315151811 现在,社区很多开源项目都在做base上rl的复现。不同的任务、不同的模版、不同的实验现象层出不穷。很多结果往往令人困惑或者相互矛盾,真体现了“炼丹”至高无上的境界以及当初被随机过程支配的恐惧:随机过程随机过。 笔者也在这个事情上花费了较多的精力,包括 更换模版(因为前期有些模版+reward-shaping就是一直跑崩)、reward-shaping(模版不一样、是否更onpolicy更新参数,都对训练行为有较大的影响)等等。直到昨天看到[1],笔者豁然开朗,很多之前遇到的问题也迎刃而解。同时,也更细致的关注框架的“微小”bug,得到相对正常的训练曲线。 文章[1] Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs,从认知维度评估和分析了qwen25系列和llama3系列的差异
………………………………