文章预览
知乎 :Xode 链接 :https://zhuanlan.zhihu.com/p/721015204 1. 标题中的方法论 2. Pre-training——数据工程 2.1.1 Qwen Math Corpus v1 2.1.2 Qwen Math Corpus v2 3. Post-training - SFT 3.1 CoT 数据 3.2 TIR 数据 4. Post-training - RL 4.1 奖励模型 4.2 强化学习 5. 去除数据集污染 6. 评估 7. 总结 [!tip] 这不是技术报告的翻译 ,全文人工撰写 这只是个人的解读,如果有问题欢迎探讨 笔者能力有限,全文可能难以深入到特别细节的理论研究,也不会有什么公式推导 全篇会尽量按照报告的行文顺序来写解读,但中间可能会有些许变化,也不一定会提到报告中每个地方 1. 标题中的方法论 相比于 Qwen2.5-Coder 的技术报告,Qwen2.5-Math 的技术报告多了一个副标题:"Toward Mathematical Expert Model via Self-Improvement",可以看出,这是一个贯穿整个 Qwen2.5-Math 训练流程的重要方法论——自我改进(Self-Improvement)。 在摘
………………………………