今天看啥  ›  专栏  ›  InfoQ

图解 DeepSeek-R1

InfoQ  · 公众号  · 科技媒体  · 2025-02-14 15:57
    

文章预览

作者 | JAY ALAMMAR 译者 | 王强 策划 | Tina   DeepSeek-R1 是人工智能稳步发展过程中最新的一记强音。对于 ML 研发社区来说,这是一个颇为重要的版本,原因包括: 它是一个开放权重模型,有一些较小、精简的版本,并且 它分享并应用了一种训练方法,以重现像 OpenAI O1 这样的推理模型。 在这篇文章中,我们将了解它是如何构建的。 内容: 回顾:如何训练 LLM DeepSeek-R1 训练配方 1- 长链推理 SFT 数据 2- 暂用高质量推理 LLM(但在非推理任务中表现较差)。 3- 使用大规模强化学习(RL)创建推理模型 3.1- 大规模推理导向强化学习(R1-Zero) 3.2- 使用暂用推理模型创建 SFT 推理数据 3.3- 一般 RL 训练阶段 架构 了解此类模型如何运作所需的大部分基础知识都可以在我们的电子书《动手实践大型语言模型 ( https://github.com/handsOnLLM/Hands-On-Large-Language-Models ) 》 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览