专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
目录
相关文章推荐
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

R1 的一些认知:4 个经典误区

吃果冻不吐果冻皮  · 公众号  ·  · 2025-04-04 10:38
    

文章预览

作者:ybq 链接:https://zhuanlan.zhihu.com/p/30750327127 r1 技术报告的发布已经两个多月了,开源社区的各种复现工作让人眼花缭乱,这里我也简单总结一下过去两个月的个人认知与社区认知。 考虑到 tensorboard 曲线属于公司财产,我不太敢贴出来。所以这篇文章我就纯尬聊了,都是些很基础的东西,偏科普性质。如有错误,还望大佬指正! 简单复盘 o1 和 r1 之间间隔了四个月,在此之前,rule-based reward 并没有被主流技术方案所认可。我们不妨做个简单的复盘,去思考下在那探索的四个月中,为什么大家更青睐于 prm / mcts 路线,为什么沿着这条路线做不出来突破?以及到底有哪些关键点是当时所被忽略的? base model and data distribution are all you need 在复现 r1 的工作中,qwen 和 llama 展现出了不同的趋势,qwen-base、qwen-instruct、qwen-math-base 也展现出了不同的趋势。rl ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览