专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

DeepSeek开源推理大模型R1：纯强化学习实现接近OpenAI o1水平，成本降至1/30

DeepTech深科技 · 公众号 · 科技媒体 · 2025-01-21 16:29

主要观点总结

DeepSeek发布全新开源推理大模型DeepSeek-R1，它在数学、编程和推理等多个任务上达到了与OpenAI o1相当的表现水平。该模型通过纯强化学习方法训练，降低了API调用成本，并公开所有训练细节。DeepSeek-R1展现出强大的推理能力，特别是在数学、编程和知识评测方面。其开发过程具有多处重要创新，包括使用GRPO算法框架、训练模板和冷启动下的强化学习等。模型性能通过四个阶段的训练流程持续提升，最终接近人类专家水平。此外，DeepSeek已完整开源模型，并允许免费商用和二次开发。

关键观点总结

关键观点1: DeepSeek发布全新大模型DeepSeek-R1，性能与OpenAI o1相当

DeepSeek最新发布的大模型DeepSeek-R1在数学、编程和推理等多个任务上表现出强大的能力，达到了与OpenAI o1相当的水平。该模型通过纯强化学习方法进行训练，降低了应用程序编程接口（API）的调用成本。

关键观点2: DeepSeek-R1展现出强大的推理能力

DeepSeek-R1在数学、编程和知识评测等方面表现出强大的推理能力。它在AIME测试中的成绩超过了OpenAI o1，并在MMLU和MMLU-Pro测试中达到高准确率。

关键观点3: DeepSeek-R1开发过程中的重要创新

DeepSeek-R1的开发过程采用了许多创新方法，包括使用GRPO算法框架、训练模板和冷启动下的强化学习等。这些创新使得模型性能得到了持续提升，并最终达到了接近人类专家的水平。

关键观点4: DeepSeek已完整开源模型，并允许免费商用和二次开发

DeepSeek已将其模型完整开源，包括DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama的六个蒸馏模型。这些模型可以免费商用，允许任意修改和衍生开发，并支持进行二次蒸馏训练。

文章预览

自此前发布了 DeepSeek-V3 和 R1-Preview-Lite 引发全网关注之后，DeepSeek 又发布了一项重磅成果。 1 月 20 日，DeepSeek 发布了全新的开源推理大模型 DeepSeek-R1，在数学、编程和推理等多个任务上达到了与 OpenAI o1 相当的表现水平，同时将应用程序编程接口（API，Application Programming Interface）调用成本降低了 90-95%。（来源：DeepSeek）更重要的是，这一模型的实验性版本 DeepSeek-R1-Zero 证明了仅通过强化学习（RL，Reinforcement Learning），无监督式微调（S FT，Supervised Fine-Tun-ing），大模型也可以有强大的推理能力。英伟达高级研究科学家 Jim Fan 评价道：“我们正生活在一个特殊的时代：一家非美国公司在真正践行着 OpenAI 最初的使命——开展真正开放的前沿研究，为所有人赋能。这看似不合常理，但最富戏剧性的往往最可能发生。DeepSeek-R1 不仅开源了大量模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博