聊聊DeepSeek-R1的技术路径

深度学习与NLP · 公众号 · · 2025-02-05 00:00

文章预览

作者：小狸愚原文：https://zhuanlan.zhihu.com/p/19714987272 Arxiv论文地址： https: / /arxiv.org/abs /2501.12948 ModelScope论文地址：https:/ /modelscope.cn/papers /109508 github论文地址：https:/ /github.com/deepseek -ai/DeepSeek-R1/tree/main DeepSeek-R1本质上给出了模型训练中的长链推理，或复杂推理问题的一种可行路径。可贵的是，在论文中DeepSeek给出了一个非常完整的技术实现路径，还包括了一些失败的尝试。这给其他模型厂商提供了完整的复现方式。我们先看最后的评测结果：可以看到R1的结果几乎都与OpenAI-o1-1217持平，部分评测集甚至超越了后者，如AIME和MATH。 DeepSeek-R1的训练路径是非常简洁的，这和DeepSeek-V2和V3模型积累的训练经验积累存在非常大的关系。首先我们先明确R1模型的训练目标，这个非常重要： Our goal is to explore the potential of LLMs to develop reasoning capabilitie ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博