专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
今天看啥  ›  专栏  ›  AI前线

图解 DeepSeek-R1

AI前线  · 公众号  · AI  · 2025-03-08 13:30
    

文章预览

作者 | JAY ALAMMAR 译者 | 王强 策划 | Tina DeepSeek-R1 是人工智能稳步发展过程中最新的一记强音。对于 ML 研发社区来说,这是一个颇为重要的版本,原因包括: 它是一个开放权重模型,有一些较小、精简的版本,并且 它分享并应用了一种训练方法,以重现像 OpenAI O1 这样的推理模型。 在这篇文章中,我们将了解它是如何构建的。 内容: 回顾:如何训练 LLM DeepSeek-R1 训练配方 1- 长链推理 SFT 数据 2- 暂用高质量推理 LLM(但在非推理任务中表现较差)。 3- 使用大规模强化学习(RL)创建推理模型 3.1- 大规模推理导向强化学习(R1-Zero)3.2- 使用暂用推理模型创建 SFT 推理数据 3.3- 一般 RL 训练阶段 架构 回顾:LLM 的训练方式 与大多数现有 LLM 一样,DeepSeek-R1 一次生成一个 token,但它更擅长解决数学和推理问题,因为它能够花更多时间,通过生成解 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览