DeepSeek深度拆解交流纪要

合纵投研 · 公众号 · · 2025-02-06 16:42

文章预览

Q：为什么之前在 GPT - 4 到 OpenAI 的训练过程中，没有看到 RL 取代 SFT 这个环节？是因为 DeepSeek v3 模型架构的底层创新使 RL 效果提升，还是之前大家没发现？ A：强化学习这一概念其实很早就已诞生。回溯到去年 OpenAI Pro 以及 OpenAI 3 版本的时候，便开始着重强调强化学习在模型训练中的应用。然而，在过往的实践中，强化学习要想取得较好的效果，在很大程度上依赖于高质量的标注数据，并且需要借助外部模型进行后训练。 DeepSeek 在方法层面并非进行了颠覆性的创新。它采用了冷启动的方法，精心构建并收集了少量的思维链（COT）数据，以此对模型进行微调，从而构建出初始的强化学行为体。在奖励模型的构建上，DeepSeek 创新性地引入了准确性奖励和格式奖励。其中，准确性奖励能够促使模型在推理过程中生成多种不同的答案，并按照指定的格式 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

植物星球 · 这里的山，一座座都是金黄色的檫木

2 天前

植物星球 · 一种很容易复花的小鸢尾，你拿笔记一下

3 天前

欣说言语 · 【⑦期-第68天、⑧期-第47天、⑨期-第26天、⑩期-第05天】-2025「欣说言语-刷题集」

4 月前

沈阳房侦探 · 最低气温-28℃！蛇年首场大范围雨雪天气要来！沈阳还会下雪吗……

1 月前

伢儿去哪学 · 这些新学校最快9月投用！有你家门口的吗？

2 周前