注册登录

专栏名称: 黄建同学

数码博主超话主持人（ChatGPT超话）头条文章作者我的学习笔记，关注AI+新能源

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

爱可可-爱生活 · 在中国算力受限的背景下，系统软件优化或将成为 ... · 18 小时前

爱可可-爱生活 · 【NVIDIA将全量版DeepSeek-R1 ... · 18 小时前

爱可可-爱生活 · 【[106星]Awesome-Multi-C ... · 昨天

宝玉xp · ChatGPT 新的 Think 按钮就是 ... · 2 天前

宝玉xp · 应该只是系统故障，现在已经恢复了-20250 ... · 3 天前

今天看啥 › 专栏 › 黄建同学

这篇Blog详细介绍了DeepSeek R1：RLHF 训练的新-20250202113424

黄建同学 · 微博 · AI · 2025-02-02 11:34

文章预览

2025-02-02 11:34 本条微博链接这篇Blog详细介绍了DeepSeek R1：RLHF 训练的新范式，可以详细了解PPO和GRPO DeepSeek R1 通过极简化策略，颠覆传统 LLM 训练方式： 1. 跳过 SFT，直接 RL：减少算力开销，让模型自我进化推理能力。 2. PPO → GRPO：用群体归一化优势估计替代 Critic，计算开销减半。 3. 基于规则的奖励：摒弃神经网络奖励模型（PRM/ORM），用硬性标准（正确性、格式、语言一致性）提升对齐。 4. 拒绝采样 + 直接蒸馏：只保留 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 在中国算力受限的背景下，系统软件优化或将成为产业突围的关键路径。-20250202084303

18 小时前

爱可可-爱生活 · 【NVIDIA将全量版DeepSeek-R1打包成NIM微服务，-20250202075349

18 小时前

爱可可-爱生活 · 【[106星]Awesome-Multi-Camera-3D-O-20250201124354

昨天

宝玉xp · ChatGPT 新的 Think 按钮就是 o1 模型的快捷方式-20250131060522

2 天前

宝玉xp · 应该只是系统故障，现在已经恢复了-20250131020209

3 天前

澳洲红领君 · 澳洲留学生限令后，各大学纷纷做出决定！入读澳洲顶级大学更难了！

5 月前

计算机视觉工坊 · 全力冲刺2025 IROS!

4 月前

雷动九天 · 回复@SimpleGifts: 小区外的河边上//@Simple-20241101181426

3 月前

芝能汽车 · 芝能车市周报 | 第43周：长城汽车

2 月前

中国日报双语新闻 · 你做的是“复制粘贴工作”吗？B站up主与诺奖得主这场关于AI的对谈太深刻

2 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号