文章预览
作者:小狸愚 原文:https://zhuanlan.zhihu.com/p/19714987272 Arxiv论文地址: https: / /arxiv.org/abs /2501.12948 ModelScope论文地址:https:/ /modelscope.cn/papers /109508 github论文地址:https:/ /github.com/deepseek -ai/DeepSeek-R1/tree/main DeepSeek-R1本质上给出了模型训练中的长链推理,或复杂推理问题的一种可行路径。可贵的是,在论文中DeepSeek给出了一个非常完整的技术实现路径,还包括了一些失败的尝试。这给其他模型厂商提供了完整的复现方式。我们先看最后的评测结果: 可以看到R1的结果几乎都与OpenAI-o1-1217持平,部分评测集甚至超越了后者,如AIME和MATH。 DeepSeek-R1的训练路径是非常简洁的,这和DeepSeek-V2和V3模型积累的训练经验积累存在非常大的关系。 首先我们先明确R1模型的训练目标,这个非常重要: Our goal is to explore the potential of LLMs to develop reasoning capabilitie
………………………………