整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

ORPO:当有监督微调遇上偏好对齐

关于NLP那些你不知道的事  · 公众号  ·  · 2024-05-20 21:14
    

文章预览

大语言模型通常会有预训练、有监督微调(supervised fine-tuning, SFT)、偏好对齐(preference alignment)三个训练阶段。虽然说在很多应用场景下有监督微调就已经够用了,但对于一些面向用户的公众模型,偏好对齐还是很有必要的(不然模型说了什么不该说的话可能这个产品甚至公司都要完蛋)。 比较经典的偏好对齐的做法就是基于人类反馈的强化学习(RLHF)那一套,根据人类偏好/反馈数据训练一个“奖励模型”,并使用该模型作为强化学习中的奖励函数,再通过类似PPO之类的强化学习算法来优化大语言模型的输出。 不过对于大多数非公司级的大语言模型来说,不愿意折腾RLHF,毕竟偏好数据不好收集、还要额外训一个奖励模型、还要搞训练不稳定的强化学习。这些成本都是很高的。 当然,都2024年了,RLHF的替代已经有不少了,比如有用AI来收集偏好 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览