0元！使用魔搭免费算力，基于Qwen基座模型，复现DeepSeek-R1

魔搭ModelScope社区 · 公众号 · · 2025-02-08 20:50

文章预览

01 引言近期，随着DeepSeek-R1爆火，学术圈掀起一股复现DeepSeek-R1的浪潮，李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用，成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现，据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。今天，我们使用魔搭社区的免费算力，基于Qwen基座，使用OpenAI的gsm8k数据集，基于Qwen基座模型，复现类似DeepSeek-R1的Reasoning模型。算力魔搭社区免费GPU算力：https://modelscope.cn/my/mynotebook 基座模型 Qwen2.5-0.5B-Instruct：https://modelscope.cn/models/Qwen/Qwen2.5-0.5B-Instruct 数据集 gsm8k：https://modelscope.cn/datasets/modelscope/gsm8k 训练工具 TRL：https://huggingface.co/docs/trl/main/en/grpo_trainer Notebook分享链接 https://modelscope.cn/notebook/share/ipynb/c4d8363a/Qwen-GRPO.ipynb 02 最佳实践本文使用TRL 的 GRPO Trainer ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博