专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
今天看啥  ›  专栏  ›  黄建同学

DeepSeek-R1,通过创新的无监督强化学习和开源策略展现了-20250122080918

黄建同学  · 微博  · AI  · 2025-01-22 08:09
    

文章预览

2025-01-22 08:09 本条微博链接 DeepSeek-R1,通过创新的无监督强化学习和开源策略展现了其独特性,从某种角度来说,已经在模型研发方面从模仿到超越OpenAI了。 1. 后训练与强化学习: DeepSeek-R1在后训练阶段大规模应用了强化学习(RL)技术,尤其是其基础版本DeepSeek-R1-Zero,完全依赖于纯强化学习进行训练,而不使用监督微调(SFT)。这种方法使得模型在极少标注数据的情况下,依然能够显著提升推理能力。 2. 群组相对策略优 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览