注册登录

专栏名称: NLP工作站

AIGC前沿知识分享&落地经验总结

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

每天发现一家店 · 用完这 12 个小物，感觉气血快溢出来了！ · 12 小时前

极果网 · 苹果10年来最大变化！iOS ... · 昨天

今天看啥 › 专栏 › NLP工作站

Zero-Rl复现的几个比较关键的问题

NLP工作站 · 公众号 · · 2025-03-11 23:25

文章预览

作者：haotian （已授权）知乎：https://zhuanlan.zhihu.com/p/28315151811 现在，社区很多开源项目都在做base上rl的复现。不同的任务、不同的模版、不同的实验现象层出不穷。很多结果往往令人困惑或者相互矛盾，真体现了“炼丹”至高无上的境界以及当初被随机过程支配的恐惧：随机过程随机过。笔者也在这个事情上花费了较多的精力，包括更换模版（因为前期有些模版+reward-shaping就是一直跑崩）、reward-shaping(模版不一样、是否更onpolicy更新参数，都对训练行为有较大的影响)等等。直到昨天看到[1]，笔者豁然开朗，很多之前遇到的问题也迎刃而解。同时，也更细致的关注框架的“微小”bug，得到相对正常的训练曲线。文章[1] Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs,从认知维度评估和分析了qwen25系列和llama3系列的差异 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

每天发现一家店 · 用完这 12 个小物，感觉气血快溢出来了！

12 小时前

极果网 · 苹果10年来最大变化！iOS 19发布定档，还有三款全新硬件新品...

昨天

九芯智能 · 智能头盔语音识别声控芯片，AI离线语音识别ic方案，NRK3301

6 月前

财宝宝 · 赚钱的逻辑。任何一个赚钱的事情，都是两部分组成-20241003194717

5 月前

跟蒋晖学电商 · 给大家分享一个高级的打法，这个打法既涉及对于市场的理解，又涉及对-20241210104816

3 月前

财宝宝 · 小泡菜，小八嘎为什么那么卷？这是他们的经济结构-20250119152845

2 月前

谷粉学术 · 985大学，获捐2亿！

3 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号