专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

解构DPO：从RLHF推导到多偏好对齐的简化之道

深度学习自然语言处理 · 公众号 · · 2024-10-20 23:59

文章预览

来自：克鲁斯卡 OpenAI发布了 o1之后，LLM领域又掀起了Inference Scaling Law的热潮，此次推理能力的大幅提升其中就有强化学习的参与，其利用 RL 改进模型思维链的中间步骤，得到了更好的答案。 LLM发展到现在这个阶段，从最初的 Pre-training 到现在的 Post-training，也是有了明显的范式变化。其中 Post-training 中对齐的方法也比较多了，从最初的 RLHF 到现在的各种O，各有优劣。标准的RLHF流程虽然清晰明了，但是相对来说实现起来更加复杂，而DPO就是旨在简化对齐这一过程，同时保持甚至提高性能。本文就逐步骤的推理一下DPO（Direct Preference Optimization）算法的设计，希望能够通过细致的推导帮助理解算法背后的原理。总体文章结构如下：在推导之前，还是先了解下RLHF的做法。 1. RLHF 1.1 RLHF 架构如图 1 所示，RLHF（Reinforcement Learning with Human Feedback）的完整流 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博