文章预览
01 引言 近期,随着DeepSeek-R1爆火,学术圈掀起一股复现DeepSeek-R1的浪潮,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。 今天,我们使用魔搭社区的免费算力,基于Qwen基座,使用OpenAI的gsm8k数据集,基于Qwen基座模型,复现类似DeepSeek-R1的Reasoning模型。 算力 魔搭社区 免费GPU算力 :https://modelscope.cn/my/mynotebook 基座模型 Qwen2.5-0.5B-Instruct:https://modelscope.cn/models/Qwen/Qwen2.5-0.5B-Instruct 数据集 gsm8k:https://modelscope.cn/datasets/modelscope/gsm8k 训练工具 TRL:https://huggingface.co/docs/trl/main/en/grpo_trainer Notebook分享链接 https://modelscope.cn/notebook/share/ipynb/c4d8363a/Qwen-GRPO.ipynb 02 最佳实践 本文使用TRL 的 GRPO Trainer
………………………………