一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

Qwen2.5-Coder 技术报告详细解读

深度学习自然语言处理  · 公众号  ·  · 2024-09-21 17:42

文章预览

知乎:Xode 链接:https://zhuanlan.zhihu.com/p/721189499 0. 前文 1. 模型架构 2. Tokenizer 3. 预训练 3.1 数据 3.2 训练 4. Post-Training 4.1 数据 4.2 训练 5. 去除数据集污染 6. 评估 7. 总结 [!tip] 这不是技术报告的翻译 ,全文人工撰写 这只是个人的解读,如果有问题欢迎探讨 笔者能力有限,全文可能难以深入到特别细节的理论研究,也不会有什么公式推导 全篇会尽量按照报告的行文顺序来写解读,但中间可能会有些许变化,也不一定会提到报告中每个地方 0. 前文 这一篇 Coder 的技术报告风格不同于 Math,整体样式都不太一样:Math 的样式模板和 Qwen Technical Report、Qwen2 Technical Report 保持一致、作者名也都是按照字典序排序的,可以说是更加“正统”;Coder 的样式模板和 DeepSeek 的样式非常类似,有区分一作,并且通讯也只有  Junyang Lin 大佬一个人(只有 2.5 的两篇开始出现 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览