专栏名称: NewBeeNLP
一个自然语言处理&人工智能的原创杂货铺子,希望能找到你喜欢的小玩意儿
今天看啥  ›  专栏  ›  NewBeeNLP

从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术

NewBeeNLP  · 公众号  ·  · 2025-02-25 11:05
    

文章预览

选自Deep (Learning) Focus 作者:Cameron R. Wolfe 编译:Panda 自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。 近日,Netflix 资深研究科学家 Cameron R. Wolfe 发布了一篇题为「 揭秘推理模型 」的深度长文,详细梳理了自 o1-mini 开始至今的推理模型发展史,并详细介绍了让标准 LLM 变成推理模型的具体技术和方法。 原文地址:https://cameronrwolfe.substack.com/p/demystifying-reasoning-models 前些年,大型语言模型(LLM)已经形成了相对固定的流程。 首先,在来自互联网的原始文本数据上预训练语言模型。之后,对齐这些模型,也就是让它们的输出更符合人类的偏好,这会用到监督微调(SFT)和基于人类反馈的强化学习(RLHF)等技术。 不管是预训练还是对齐,都对模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览