专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
今天看啥  ›  专栏  ›  黄建同学

这篇Blog详细介绍了DeepSeek R1:RLHF 训练的新-20250202113424

黄建同学  · 微博  · AI  · 2025-02-02 11:34
    

文章预览

2025-02-02 11:34 本条微博链接 这篇Blog详细介绍了DeepSeek R1:RLHF 训练的新范式,可以详细了解PPO和GRPO DeepSeek R1 通过极简化策略,颠覆传统 LLM 训练方式: 1. 跳过 SFT,直接 RL:减少算力开销,让模型自我进化推理能力。 2. PPO → GRPO:用群体归一化优势估计替代 Critic,计算开销减半。 3. 基于规则的奖励:摒弃神经网络奖励模型(PRM/ORM),用硬性标准(正确性、格式、语言一致性)提升对齐。 4. 拒绝采样 + 直接蒸馏:只保留 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览