一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

Qwen2.5-Math 技术报告详细解读

深度学习自然语言处理  · 公众号  ·  · 2024-09-20 14:03

文章预览

知乎 :Xode 链接 :https://zhuanlan.zhihu.com/p/721015204 1. 标题中的方法论 2. Pre-training——数据工程 2.1.1 Qwen Math Corpus v1 2.1.2 Qwen Math Corpus v2 3. Post-training - SFT 3.1 CoT 数据 3.2 TIR 数据 4. Post-training - RL 4.1 奖励模型 4.2 强化学习 5. 去除数据集污染 6. 评估 7. 总结 [!tip] 这不是技术报告的翻译 ,全文人工撰写 这只是个人的解读,如果有问题欢迎探讨 笔者能力有限,全文可能难以深入到特别细节的理论研究,也不会有什么公式推导 全篇会尽量按照报告的行文顺序来写解读,但中间可能会有些许变化,也不一定会提到报告中每个地方 1. 标题中的方法论 相比于 Qwen2.5-Coder 的技术报告,Qwen2.5-Math 的技术报告多了一个副标题:"Toward Mathematical Expert Model via Self-Improvement",可以看出,这是一个贯穿整个 Qwen2.5-Math 训练流程的重要方法论——自我改进(Self-Improvement)。 在摘 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览