专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

模型调优(RLHF/DPO/ORPO)终极指南

AINLP  · 公众号  ·  · 2024-06-18 10:09
    

文章预览

作者:FelixCoder,致力于分享我的编程经验 原文:https://zhuanlan.zhihu.com/p/692594519 前言 虽然大规模的无监督语言模型(LMs)学习广泛的世界知识和一些推理技能,但由于其训练的完全无监督性质,实现对其行为的精确控制是困难的。模型必须经过进一步调优才能在通用领域应用程序中可用,通常是通过指令调优和偏好对齐等过程。 尽管指令微调后模型能够遵循指示,模型可能会产生有害或不道德的输出。为了进一步使这些模型与人类价值观保持一致/人类的偏好,需要使用带有人类反馈的强化学习RLHF(Reinforcement Learning from Human Feedback)或采用直接偏好优化DPO(Differential Privacy Optimization)等技术对成对偏好数据进行额外训练。 当然目前 DPO 是当下最流行的方式。但最近新的方法 ORPO(Odds Ratio Preference Optimization) 可以用极高的效率进行偏好优化,也有很特点。下 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览