专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

200多行代码,超低成本复现DeepSeek R1「Aha Moment」!复旦大学开源

机器之心  · 公众号  · AI  · 2025-02-18 09:18
    

主要观点总结

本文介绍了机器之心AIxiv专栏过去数年的工作内容和最新成果,特别是复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员科研团队基于GRPO算法高效复现R1-zero自发反思能力的项目。该项目代码简洁,依赖简单,相对于现有开源的R1-zero复现项目具有明显优势。

关键观点总结

关键观点1: 机器之心AIxiv专栏的简介和过去数年的工作内容。

该专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如有优秀的工作想要分享,可投稿或联系报道。

关键观点2: R1-zero的自发反思能力复现。

复旦大学知识工场实验室科研团队基于GRPO算法思想高效复现了R1-zero的自发反思能力。该项目代码简洁,只需要200多行,且支持在一张A800 (80G)加一张3090 (24G)完成7B模型的训练。

关键观点3: 项目的优势。

该项目相对于现有开源的R1-zero复现项目,代码简洁,依赖简单,资源消耗低。通过模型解耦与分离进一步降低算力需求。具体实现包括参考模型解耦、核心损失计算以及训练环境与过程的细节。

关键观点4: 项目的实验结果和改进方向。

使用Qwen2.5-3B和Qwen2.5-7B作为基础模型,测试了模型训练过程中正确率和格式遵循能力。实验结果符合预期,且给出了改进方向,包括解决组内答案同质性问题以及长思维链显存占用问题。


文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 本文是复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员科研团队的最新研究成果,他们用简洁的代码高效复现了 R1-zero 的自发反思能力。 在关于 DeepSeek 的文章中,我们会多次听到「Aha Moment」这个词。它指的是模型在训练过程中经历的一种顿悟时刻,表现为模型突然展现出类似人类的自我反思和策略调整能力。   DeepSeek 论文中提到的 Aha Moment。 DeepSeek-R1-zero 经过强化学习实现了大模型顿悟时刻的自发涌现,引发了大量对其方案的解读与复现工作。 其中,基于 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览