注册登录

专栏名称: 黄建同学

数码博主超话主持人（ChatGPT超话）头条文章作者我的学习笔记，关注AI+新能源

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

宝玉xp · 回复@新答觉得研究真是太难了T_T:分析St ... · 昨天

爱可可-爱生活 · 【用AI加速学习的秘诀（10个关键提示词模板 ... · 2 天前

爱可可-爱生活 · 【[5.3k星]TinyTroupe：微软推 ... · 2 天前

爱可可-爱生活 · 本文提出了 AITP ... · 3 天前

爱可可-爱生活 · [CL]《LatteReview: A ... · 3 天前

今天看啥 › 专栏 › 黄建同学

DeepSeek-R1，通过创新的无监督强化学习和开源策略展现了-20250122080918

黄建同学 · 微博 · AI · 2025-01-22 08:09

文章预览

2025-01-22 08:09 本条微博链接 DeepSeek-R1，通过创新的无监督强化学习和开源策略展现了其独特性，从某种角度来说，已经在模型研发方面从模仿到超越OpenAI了。 1. 后训练与强化学习: DeepSeek-R1在后训练阶段大规模应用了强化学习（RL）技术，尤其是其基础版本DeepSeek-R1-Zero，完全依赖于纯强化学习进行训练，而不使用监督微调（SFT）。这种方法使得模型在极少标注数据的情况下，依然能够显著提升推理能力。 2. 群组相对策略优 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 回复@新答觉得研究真是太难了T_T:分析Stripe支付流量//-20250122003656

昨天

爱可可-爱生活 · 【用AI加速学习的秘诀（10个关键提示词模板）】10个实用的AI-20250121085010

2 天前

爱可可-爱生活 · 【[5.3k星]TinyTroupe：微软推出的AI驱动多角色模-20250120190504

2 天前

爱可可-爱生活 · 本文提出了 AITP 方法，通过识别并改写预训练语料库中现有指令-20250120053346

3 天前

爱可可-爱生活 · [CL]《LatteReview: A Multi-Agent -20250120060723

3 天前

心榜 · 小城咨询师入驻首选：壹心理自营招募计划

5 月前

物联网智库 · 从“万物互联”向“万物智联”，深度解读工信部移动物联网最新政策

4 月前

有书 · 三九进九时间表，太实用了，送给大家

4 周前

版权为什么 · 01.07 商标主题谷歌搜索快讯

2 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号