文章预览
作者:ybq 链接:https://zhuanlan.zhihu.com/p/30750327127 r1 技术报告的发布已经两个多月了,开源社区的各种复现工作让人眼花缭乱,这里我也简单总结一下过去两个月的个人认知与社区认知。 考虑到 tensorboard 曲线属于公司财产,我不太敢贴出来。所以这篇文章我就纯尬聊了,都是些很基础的东西,偏科普性质。如有错误,还望大佬指正! 简单复盘 o1 和 r1 之间间隔了四个月,在此之前,rule-based reward 并没有被主流技术方案所认可。我们不妨做个简单的复盘,去思考下在那探索的四个月中,为什么大家更青睐于 prm / mcts 路线,为什么沿着这条路线做不出来突破?以及到底有哪些关键点是当时所被忽略的? base model and data distribution are all you need 在复现 r1 的工作中,qwen 和 llama 展现出了不同的趋势,qwen-base、qwen-instruct、qwen-math-base 也展现出了不同的趋势。rl
………………………………