注册
登录
专栏名称:
黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
在中国算力受限的背景下,系统软件优化或将成为 ...
·
18 小时前
爱可可-爱生活
·
【NVIDIA将全量版DeepSeek-R1 ...
·
18 小时前
爱可可-爱生活
·
【[106星]Awesome-Multi-C ...
·
昨天
宝玉xp
·
ChatGPT 新的 Think 按钮就是 ...
·
2 天前
宝玉xp
·
应该只是系统故障,现在已经恢复了-20250 ...
·
3 天前
今天看啥
›
专栏
›
黄建同学
这篇Blog详细介绍了DeepSeek R1:RLHF 训练的新-20250202113424
黄建同学
·
微博
·
AI
· 2025-02-02 11:34
文章预览
2025-02-02 11:34 本条微博链接 这篇Blog详细介绍了DeepSeek R1:RLHF 训练的新范式,可以详细了解PPO和GRPO DeepSeek R1 通过极简化策略,颠覆传统 LLM 训练方式: 1. 跳过 SFT,直接 RL:减少算力开销,让模型自我进化推理能力。 2. PPO → GRPO:用群体归一化优势估计替代 Critic,计算开销减半。 3. 基于规则的奖励:摒弃神经网络奖励模型(PRM/ORM),用硬性标准(正确性、格式、语言一致性)提升对齐。 4. 拒绝采样 + 直接蒸馏:只保留 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
在中国算力受限的背景下,系统软件优化或将成为产业突围的关键路径。-20250202084303
18 小时前
爱可可-爱生活
·
【NVIDIA将全量版DeepSeek-R1打包成NIM微服务,-20250202075349
18 小时前
爱可可-爱生活
·
【[106星]Awesome-Multi-Camera-3D-O-20250201124354
昨天
宝玉xp
·
ChatGPT 新的 Think 按钮就是 o1 模型的快捷方式-20250131060522
2 天前
宝玉xp
·
应该只是系统故障,现在已经恢复了-20250131020209
3 天前
澳洲红领君
·
澳洲留学生限令后,各大学纷纷做出决定!入读澳洲顶级大学更难了!
5 月前
计算机视觉工坊
·
全力冲刺2025 IROS!
4 月前
雷动九天
·
回复@SimpleGifts: 小区外的河边上//@Simple-20241101181426
3 月前
芝能汽车
·
芝能车市周报 | 第43周:长城汽车
2 月前
中国日报双语新闻
·
你做的是“复制粘贴工作”吗?B站up主与诺奖得主这场关于AI的对谈太深刻
2 月前