专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Qwen2.5-Math 技术报告详细解读

深度学习自然语言处理 · 公众号 · · 2024-09-20 14:03

文章预览

知乎：Xode 链接：https://zhuanlan.zhihu.com/p/721015204 1. 标题中的方法论 2. Pre-training——数据工程 2.1.1 Qwen Math Corpus v1 2.1.2 Qwen Math Corpus v2 3. Post-training - SFT 3.1 CoT 数据 3.2 TIR 数据 4. Post-training - RL 4.1 奖励模型 4.2 强化学习 5. 去除数据集污染 6. 评估 7. 总结 [!tip] 这不是技术报告的翻译，全文人工撰写这只是个人的解读，如果有问题欢迎探讨笔者能力有限，全文可能难以深入到特别细节的理论研究，也不会有什么公式推导全篇会尽量按照报告的行文顺序来写解读，但中间可能会有些许变化，也不一定会提到报告中每个地方 1. 标题中的方法论相比于 Qwen2.5-Coder 的技术报告，Qwen2.5-Math 的技术报告多了一个副标题："Toward Mathematical Expert Model via Self-Improvement"，可以看出，这是一个贯穿整个 Qwen2.5-Math 训练流程的重要方法论——自我改进（Self-Improvement）。在摘 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

华泰睿思 · 华泰 | 煤炭：25年长协政策利好高长协比例龙头

2 天前

天风研究 · 天风·固收 | 货币政策调控新框架专题（一）—如何跟踪解读OMO投放变化？

3 天前

华泰睿思 · 华泰 | 交运：加码顺周期航空/跨境/集运，配置公路

4 天前

天风研究 · 天风研究 | 2024三季报总结（二）

6 天前

国泰君安证券研究 · 国君周期论剑｜地产链的危与机之二

6 天前

观点 · 土地热线 | 中海竞得成都青羊超百亩宅地；北京城建与越秀地产合资开发上海地块

4 月前

晶澳科技 JA Solar · 教师节丨师如光芒照亮前程书写晶彩共续辉煌

2 月前