今天看啥  ›  专栏  ›  机器之心

华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」

机器之心  · 公众号  · AI  · 2025-02-07 12:19
    

文章预览

选自 oatllm.notion.site 机器之心编译 编译:杜伟、蛋酱 自我反思(尤其是肤浅的)有时对模型性能的助益不大。 在过去这半个月里,关于 DeepSeek 的一切都会迅速成为焦点。 一项非常鼓舞人心的发现是:DeepSeek-R1-Zero 通过纯强化学习(RL)实现了「顿悟」。在那个瞬间,模型学会了自我反思等涌现技能,帮助它进行上下文搜索,从而解决复杂的推理问题。 在 R1-Zero 发布后的短短几天内,连续几个项目都在较小规模(如 1B 到 7B)上独立「复制」了类似 R1-Zero 的训练,并且都观察到了「顿悟时刻」,这种时刻通常伴随着响应长度的增加。 原文链接:https://oatllm.notion.site/oat-zero 最近,来自新加坡 Sea AI Lab 等机构的研究者再次梳理了类 R1-Zero 的训练过程,并在一篇博客中分享了三项重要发现: 1. 在类似 R1-Zero 的训练中,可能并不存在「顿悟时刻」。相反, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览