关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
今天看啥  ›  专栏  ›  深度图学习与大模型LLM

尝试基于0.5B小模型复现DeepSeek-R1的思维链

深度图学习与大模型LLM  · 公众号  ·  · 2025-03-15 10:38
    

文章预览

原文: https://zhuanlan.zhihu.com/p/26939947191 微信原文:https://mp.weixin.qq.com/s/rkKP6zRV3ifBWHaa0MiNKA     1. 前言 本文主要是以两个目的出发: • 第一个是简单地介绍下LLM训练的一个完整流程,侧重点在于帮助认识这个过程,而不是严谨地对每一个剖析细节,因此基本没有公式推导,但一些必要的符号是避免不了的; • 第二个是尝试使用小模型(0.5B)来复现DeepSeek-R1的思维链模式, 仅仅是一个demo级别的实践 。 (本人水平有限,如若发现有不对的,欢迎交流探讨) 2. 如何从零训练一个LLM 最简单的语言来描述一个LLM的工作(推理)机制: 1.将一段输入文本映射为对应的tokens,然后给到transformer模型,预测下一个token的概率分布,选择概率最高的token(当然,也会有采样topK个概率最高的tokens); 2.本次选择的token + 输入文本的tokens + 之前预测输出的tokens,拼接起 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览