文章预览
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 当全球科技圈还围绕 OpenAI 新模型定价争得不可开交时,一个名为 DeepSeek 的开源模型在 GitHub 上大放异彩,狂揽 74.4k 星。这个出自中国团队之手的模型,以数学推理能力超车、极致性价比、端到端开源生态这三项“杀手锏”重塑行业规则。而近期一篇DeepSeek研究团队发布的一篇论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》为我们进一步了解这个模型提供了更多视角。 摘要 本文探讨了其在提升大语言模型(LLM)推理能力方面的创新方法和成果。DeepSeek-R1 通过纯强化学习(RL)训练,展示了在无需监督微调(SFT)的情况下,模型能够自主进化出强大的推理能力。此外,论文还提出了 DeepSeek-R1-Zero 和 DeepSeek-R1 两个版本,并通过多阶段训练和知识蒸馏技术进一步优化模型性能
………………………………