专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

超越OpenAI黑箱：DeepSeek-R1详解如何用规则奖励塑造顶尖推理模型？

AI TIME 论道 · 公众号 · · 2025-02-16 12:00

文章预览

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！当全球科技圈还围绕 OpenAI 新模型定价争得不可开交时，一个名为 DeepSeek 的开源模型在 GitHub 上大放异彩，狂揽 74.4k 星。这个出自中国团队之手的模型，以数学推理能力超车、极致性价比、端到端开源生态这三项“杀手锏”重塑行业规则。而近期一篇DeepSeek研究团队发布的一篇论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》为我们进一步了解这个模型提供了更多视角。摘要本文探讨了其在提升大语言模型（LLM）推理能力方面的创新方法和成果。DeepSeek-R1 通过纯强化学习（RL）训练，展示了在无需监督微调（SFT）的情况下，模型能够自主进化出强大的推理能力。此外，论文还提出了 DeepSeek-R1-Zero 和 DeepSeek-R1 两个版本，并通过多阶段训练和知识蒸馏技术进一步优化模型性能 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博