从o1-mini到DeepSeek-R1，万字长文带你读懂推理模型的历史与技术

NewBeeNLP · 公众号 · · 2025-02-25 11:05

文章预览

选自Deep (Learning) Focus 作者：Cameron R. Wolfe 编译：Panda 自 OpenAI 发布 o1-mini 模型以来，推理模型就一直是 AI 社区的热门话题，而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。近日，Netflix 资深研究科学家 Cameron R. Wolfe 发布了一篇题为「揭秘推理模型」的深度长文，详细梳理了自 o1-mini 开始至今的推理模型发展史，并详细介绍了让标准 LLM 变成推理模型的具体技术和方法。原文地址：https://cameronrwolfe.substack.com/p/demystifying-reasoning-models 前些年，大型语言模型（LLM）已经形成了相对固定的流程。首先，在来自互联网的原始文本数据上预训练语言模型。之后，对齐这些模型，也就是让它们的输出更符合人类的偏好，这会用到监督微调（SFT）和基于人类反馈的强化学习（RLHF）等技术。不管是预训练还是对齐，都对模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

读者 · 男生拍的照片vs女生拍的照片：如果你看上了一个男人，那就是看上了他背后的女人哈哈哈哈哈

16 小时前

新周刊 · 1L装椰子水，杀入“9块9”大战

3 天前

飞客区块链 · 【酒】沙漠中新开一家钻石酒店，颜值可太高了！

8 月前

零壹财经 · 贷款中介及从业人员，请登记！

5 月前

台懋科技 · 台懋半导体 | MOS 管结构，原理及基本应用(一)

3 月前

台懋科技 · 台懋半导体 | MOS 管结构，原理及基本应用(一)

3 月前