专栏名称: Datawhale
一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。
今天看啥  ›  专栏  ›  Datawhale

10篇R1相关的研究全面汇总,万字思考!

Datawhale  · 公众号  ·  · 2025-03-20 23:22
    

文章预览

   Datawhale干货  作者:长琴,Datawhale成员 本文通过10篇R1相关的研究,介绍R1后LLM的新范式。其核心就是如何进一步增强LLM的能力。 本文中的相关阅读,可以在主页找到对应文章: 主页地址: https://yam.gift/ 基本框架 首先是整体的框架,如下所示。 • Base+SFT • R1冷启动 • LIMO (817 Data Selection) • s1 (1000) • Base+RL • GRPO: R1-Zero • GRPO: oat-zero (Base can Aha、RL enhance) • PPO: LIMR (Data Selection) • PPO: orz (Scaling quality, diversity) • DPO: Online-DPO-R1 (Different RL Algo) • DPO: LIMD (Data Selection) • SFT+RL • R1蒸馏 • DeepScaleR (Length Scaling) • Self-rewarding correction (LLM can reward itself, explicit Aha)、L1(LCPO) 我将其分成3个部分,前两个部分是Base模型的基础上使用SFT或RL提升效果,最后是SFT结合RL进一步提升效果。每个部分的第一个都是R1论文中的内容,上面没有R1本身,是因为R1本 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览