文章预览
来自:克鲁斯卡 OpenAI发布了 o1之后,LLM领域又掀起了Inference Scaling Law的热潮,此次推理能力的大幅提升其中就有强化学习的参与,其利用 RL 改进模型思维链的中间步骤,得到了更好的答案。 LLM发展到现在这个阶段,从最初的 Pre-training 到现在的 Post-training,也是有了明显的范式变化。其中 Post-training 中对齐的方法也比较多了,从最初的 RLHF 到现在的各种O,各有优劣。标准的RLHF流程虽然清晰明了,但是相对来说实现起来更加复杂,而DPO就是旨在简化对齐这一过程,同时保持甚至提高性能。 本文就逐步骤的推理一下DPO(Direct Preference Optimization)算法的设计,希望能够通过细致的推导帮助理解算法背后的原理。 总体文章结构如下: 在推导之前,还是先了解下RLHF的做法。 1. RLHF 1.1 RLHF 架构 如图 1 所示,RLHF(Reinforcement Learning with Human Feedback)的完整流
………………………………