文章预览
Datawhale干货 作 者:Jimmy.DU,Dataw hale成员 1. Impressive Points LLM模型推理能力提升 在LLM模型post-training中,仅使用 强化学习(reinforcement learning,RL) 提升模型推理能力,不再依赖有监督微调训练(supervised fine-tuning,SFT)。 证明了LLM模型具有自行探索 长思维链(chain-of-thought,COT) 的能力。 端侧模型(小模型)推理能力提升 相对于使用RL进行训练, 基于大模型进行蒸馏(Distillation)的方式 ,是提升端侧模型推理能力更有效的途径。 2. 纯强化学习,LLM推理能力提升新范式? 2.1 DeepSeek-R1-Zero 核心问题: 当前的post-training流程对于 大量监督数据 的依赖,监督数据的收集非常耗时: 当前模型推理性能的提升,需要大量监督数据进行SFT,以作为模型post-training的冷启动。 当前一些研究已经验证了 强化学习在模型推理性能上的有效性 ,但也依赖监督数
………………………………