文章预览
© 作者|闵映乾 机构|中国人民大学 研究方向|大语言模型 为了帮助开源社区共同研究类o1慢思考系统的实现方法,我们开源了在技术报告 Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems 中使用的训练数据和模型。 文章也同步发布在 AI Box 知乎专栏(知乎搜索 AI Box 专栏),欢迎大家在知乎专栏的文章下方评论留言,交流探讨! 资源简介 为了帮助开源社区共同研究类o1慢思考系统的实现方法,我们开源了在技术报告 Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems 中使用的训练数据和模型。 训练数据包括3.9K数学领域和1K混合领域(代码、科学和自然语言谜题)的长程思维链。其中3.9K数学领域数据有2.3K来自DeepSeek-R1,1.6K来自于QwQ(经过我们的模型改写成与R1同样的格式,详情参考论文);1K混合
………………………………