专栏名称: 圆圆的算法笔记
定期更新深度学习/算法干货笔记和世间万物学习记录~
今天看啥  ›  专栏  ›  圆圆的算法笔记

DeepSeek-R1简明解析:从DeepSeek-V3到DeepSeek-R1,LLM是如何实现自我进化的?

圆圆的算法笔记  · 公众号  ·  · 2025-02-03 08:56
    

文章预览

点关注,不迷路,用心整理每一篇算法干货~ 后台留言” 交流 “, 加入圆圆算法交流群~ 扫码加入圆圆的算法笔记知识库 ( 已有 1000+ 同学加入学习, 800+ 干货笔记) 在之前的文章中,我们在文章 DeepSeek简明解析,10分钟速通DeepSeekV1~V3核心技术点! 中介绍了从DeepSeek v1到DeepSeek v3的模型升级之路。那么目前在国内外大火的DeepSeek R1和之前的DeepSeek是什么关系呢?今天这篇文章就用简明的语言给大家介绍一下DeepSeek R1的核心技术点。 DeepSeek R1是基于DeepSeek V3模型进一步进行训练得到的, 其核心优化在于训练方式上。通过深度思维链文本进行强化学习、并让模型自己生成高质量的SFT数据,实现模型的自我进化 。具体的又分为DeepSeek R1和DeepSeek R1-Zero两个模型,前者是后者的进一步升级。下面展开为大家介绍核心的优化点。 1 R1-Zero:强化学习实现模型自我 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览