专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

DeepSeek开源推理大模型R1:纯强化学习实现接近OpenAI o1水平,成本降至1/30

DeepTech深科技  · 公众号  · 科技媒体  · 2025-01-21 16:29
    

主要观点总结

DeepSeek发布全新开源推理大模型DeepSeek-R1,它在数学、编程和推理等多个任务上达到了与OpenAI o1相当的表现水平。该模型通过纯强化学习方法训练,降低了API调用成本,并公开所有训练细节。DeepSeek-R1展现出强大的推理能力,特别是在数学、编程和知识评测方面。其开发过程具有多处重要创新,包括使用GRPO算法框架、训练模板和冷启动下的强化学习等。模型性能通过四个阶段的训练流程持续提升,最终接近人类专家水平。此外,DeepSeek已完整开源模型,并允许免费商用和二次开发。

关键观点总结

关键观点1: DeepSeek发布全新大模型DeepSeek-R1,性能与OpenAI o1相当

DeepSeek最新发布的大模型DeepSeek-R1在数学、编程和推理等多个任务上表现出强大的能力,达到了与OpenAI o1相当的水平。该模型通过纯强化学习方法进行训练,降低了应用程序编程接口(API)的调用成本。

关键观点2: DeepSeek-R1展现出强大的推理能力

DeepSeek-R1在数学、编程和知识评测等方面表现出强大的推理能力。它在AIME测试中的成绩超过了OpenAI o1,并在MMLU和MMLU-Pro测试中达到高准确率。

关键观点3: DeepSeek-R1开发过程中的重要创新

DeepSeek-R1的开发过程采用了许多创新方法,包括使用GRPO算法框架、训练模板和冷启动下的强化学习等。这些创新使得模型性能得到了持续提升,并最终达到了接近人类专家的水平。

关键观点4: DeepSeek已完整开源模型,并允许免费商用和二次开发

DeepSeek已将其模型完整开源,包括DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama的六个蒸馏模型。这些模型可以免费商用,允许任意修改和衍生开发,并支持进行二次蒸馏训练。


文章预览

自此前发布了 DeepSeek-V3 和 R1-Preview-Lite 引发全网关注之后,DeepSeek  又发布了一项重磅成果。 1 月 20 日,DeepSeek 发布了全新的开源推理大模型 DeepSeek-R1,在数学、编程和推理等多个任务上达到了与 OpenAI o1 相当的表现水平,同时将 应用程序编程接口(API,Application Programming Interface) 调用成本降低了 90-95%。 (来源:DeepSeek) 更重要的是, 这一模型的实验性版本 DeepSeek-R1-Zero 证明了仅通过强化学习 (RL,Reinforcement Learning),无监督式 微调(S FT,Supervised Fine-Tun-ing), 大模型也可以有强大的推理能力。 英伟达 高级研究科学家 Jim Fan 评价道:“我们正生活在一个特殊的时代:一家非美国公司在真正践行着 OpenAI 最初的使命——开展真正开放的前沿研究,为所有人赋能。这看似不合常理,但最富戏剧性的往往最可能发生。DeepSeek-R1 不仅开源了大量模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览