类O1复现项目数据和模型开源啦

专知 · 公众号 · · 2024-12-25 11:00

文章预览

© 作者｜闵映乾机构｜中国人民大学研究方向｜大语言模型为了帮助开源社区共同研究类o1慢思考系统的实现方法，我们开源了在技术报告 Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems 中使用的训练数据和模型。文章也同步发布在 AI Box 知乎专栏（知乎搜索 AI Box 专栏），欢迎大家在知乎专栏的文章下方评论留言，交流探讨！资源简介为了帮助开源社区共同研究类o1慢思考系统的实现方法，我们开源了在技术报告 Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems 中使用的训练数据和模型。训练数据包括3.9K数学领域和1K混合领域（代码、科学和自然语言谜题）的长程思维链。其中3.9K数学领域数据有2.3K来自DeepSeek-R1，1.6K来自于QwQ（经过我们的模型改写成与R1同样的格式，详情参考论文）；1K混合 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博