专栏名称: 酷酷的群
统计机器学习、深度学习、自然语言处理、图神经网络。
今天看啥  ›  专栏  ›  酷酷的群

生成式大模型的RLHF技术(一):基础

酷酷的群  · 公众号  ·  · 2023-11-19 14:53

文章预览

一、概述 大语言模型(LLMs)在预训练的过程中通常会捕捉数据的特征,而这些训练数据通常既包含高质量的也包含低质量的,因此模型有时会产生不被期望的行为,如编造事实,生成有偏见或有毒的文本,甚至对人类有害的内容。因此,将LLMs与人类价值观(如helpful, honest, 和harmless, 即3H)对齐是非常重要的,目前采用的主流的技术即是基于人类反馈的强化学习技术(RLHF)。 通常来说,RLHF包括三个步骤: ①supervised fine-tuning (SFT):对LLMs进行微调,LLMs通过模仿人类标注的对话示例来学习通用的的类似人类的对话。 ②reward model (RM) training:对于模型对同一个prompt的多个回复,利用人类标注来进行排序以获取人类偏好,然后单独使用另一个语言模型作为reward model,在这个reward model上使用标注的数据进行训练(类似排序任务)。 ③proximal policy optimization ( ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览