专栏名称: 江大白
专业有趣的AI内容平台,关注后回复【算法】,获取45家大厂的《人工智能算法岗江湖武林秘籍》
今天看啥  ›  专栏  ›  江大白

两万字长文,用PyTorch从零构建 DeepSeek R1,模型架构和分步训练详解!

江大白  · 公众号  ·  · 2025-03-14 08:00
    

文章预览

以下 文 章来源于微信公众号: 数据派THU 作者: 数据派THU 链接:https://mp.weixin.qq.com/s/eYDFMdeABfZcrTsyN6LpEg 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 本文从零开始构建基于Transforme r的DeepSeek R1深度学习模型,并详细讲解模型架构设计、数据准备、训练与评估的全过程。帮助读者更好地理解 DeepSeek R1 的技术原理。 DeepSeek R1 的完整训练流程核心在于,在其基础模型 DeepSeek V3 之上,运用了多种强化学习策略。 本文将从一个可本地运行的 基础模型 起步,并参照其技术报告, 完全从零开始构建  DeepSeek R1, 理论结合实践,逐步深入 每个训练环节。通过可视化方式,由浅入深地解析 DeepSeek R1 的工作机制。 本文的代码可在github上获得,并且我将英文的注释翻译成了中文,项目文件结构: train-deepseek-r1/ ├── code.ipynb # Jupyter Notebo ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览