文章预览
24年9月来自阿里的论文“Qwen2.5-Math Technical Report:Toward Mathematical Expert Model Via Self- Improvement ”。 一系列数学专用的大语言模型:Qwen2.5-Math 和 Qwen2.5-Math-Instruct-1.5B/7B/72B。Qwen2.5系列的核心创新在于将自我完善的理念贯穿于从预训练、后训练到推理的整个流程:(1)在预训练阶段,利用 Qwen2-Math-Instruct 生成大规模高质量的数学数据。(2)在后训练阶段,从 Qwen2-Math-Instruct 进行大量采样,开发 奖励模型(RM) 。然后将这个 RM 应用于监督微调(SFT)中的数据迭代演变。有了更强大的 SFT 模型,就可以迭代地训练和更新 RM,进而指导下一轮 SFT 数据迭代。在最终的 SFT 模型上,采用终极 RM 进行强化学习,从而诞生了 Qwen2.5-Math-Instruct。(3)此外,在推理阶段,使用 RM 指导采样,优化模型性能。Qwen2.5-Math-Instruct 支持中英文,并具备高级数学推理能力,包括思
………………………………