R1 的一些认知：4 个经典误区

吃果冻不吐果冻皮 · 公众号 · · 2025-04-04 10:38

文章预览

作者：ybq 链接：https://zhuanlan.zhihu.com/p/30750327127 r1 技术报告的发布已经两个多月了，开源社区的各种复现工作让人眼花缭乱，这里我也简单总结一下过去两个月的个人认知与社区认知。考虑到 tensorboard 曲线属于公司财产，我不太敢贴出来。所以这篇文章我就纯尬聊了，都是些很基础的东西，偏科普性质。如有错误，还望大佬指正！简单复盘 o1 和 r1 之间间隔了四个月，在此之前，rule-based reward 并没有被主流技术方案所认可。我们不妨做个简单的复盘，去思考下在那探索的四个月中，为什么大家更青睐于 prm / mcts 路线，为什么沿着这条路线做不出来突破？以及到底有哪些关键点是当时所被忽略的？ base model and data distribution are all you need 在复现 r1 的工作中，qwen 和 llama 展现出了不同的趋势，qwen-base、qwen-instruct、qwen-math-base 也展现出了不同的趋势。rl ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博