文章预览
Q:为什么之前在 GPT - 4 到 OpenAI 的训练过程中,没有看到 RL 取代 SFT 这个环节?是因为 DeepSeek v3 模型架构的底层创新使 RL 效果提升,还是之前大家没发现? A:强化学习这一概念其实很早就已诞生。回溯到去年 OpenAI Pro 以及 OpenAI 3 版本的时候,便开始着重强调强化学习在模型训练中的应用。然而,在过往的实践中,强化学习要想取得较好的效果,在很大程度上依赖于高质量的标注数据,并且需要借助外部模型进行后训练。 DeepSeek 在方法层面并非进行了颠覆性的创新。它采用了冷启动的方法,精心构建并收集了少量的思维链(COT)数据,以此对模型进行微调,从而构建出初始的强化学行为体。在奖励模型的构建上,DeepSeek 创新性地引入了准确性奖励和格式奖励。其中,准确性奖励能够促使模型在推理过程中生成多种不同的答案,并按照指定的格式
………………………………