专栏名称: Datawhale
一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。
目录
相关文章推荐
今天看啥  ›  专栏  ›  Datawhale

DeepSeek-R1解读:纯强化学习,模型推理能力提升的新范式?

Datawhale  · 公众号  ·  · 2025-01-27 18:23
    

文章预览

 Datawhale干货  作 者:Jimmy.DU,Dataw hale成员 1. Impressive Points LLM模型推理能力提升 在LLM模型post-training中,仅使用 强化学习(reinforcement learning,RL)  提升模型推理能力,不再依赖有监督微调训练(supervised fine-tuning,SFT)。 证明了LLM模型具有自行探索 长思维链(chain-of-thought,COT)  的能力。 端侧模型(小模型)推理能力提升 相对于使用RL进行训练, 基于大模型进行蒸馏(Distillation)的方式 ,是提升端侧模型推理能力更有效的途径。 2. 纯强化学习,LLM推理能力提升新范式? 2.1 DeepSeek-R1-Zero 核心问题:  当前的post-training流程对于 大量监督数据 的依赖,监督数据的收集非常耗时: 当前模型推理性能的提升,需要大量监督数据进行SFT,以作为模型post-training的冷启动。 当前一些研究已经验证了 强化学习在模型推理性能上的有效性 ,但也依赖监督数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览