一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
今天看啥  ›  专栏  ›  深度学习自然语言处理

解构DPO:从RLHF推导到多偏好对齐的简化之道

深度学习自然语言处理  · 公众号  ·  · 2024-10-20 23:59

文章预览

来自:克鲁斯卡 OpenAI发布了 o1之后,LLM领域又掀起了Inference Scaling Law的热潮,此次推理能力的大幅提升其中就有强化学习的参与,其利用 RL 改进模型思维链的中间步骤,得到了更好的答案。 LLM发展到现在这个阶段,从最初的 Pre-training 到现在的 Post-training,也是有了明显的范式变化。其中 Post-training 中对齐的方法也比较多了,从最初的 RLHF 到现在的各种O,各有优劣。标准的RLHF流程虽然清晰明了,但是相对来说实现起来更加复杂,而DPO就是旨在简化对齐这一过程,同时保持甚至提高性能。 本文就逐步骤的推理一下DPO(Direct Preference Optimization)算法的设计,希望能够通过细致的推导帮助理解算法背后的原理。 总体文章结构如下: 在推导之前,还是先了解下RLHF的做法。 1. RLHF 1.1 RLHF 架构 如图 1 所示,RLHF(Reinforcement Learning with Human Feedback)的完整流 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章