生成式大模型的RLHF技术（一）：基础

酷酷的群 · 公众号 · · 2023-11-19 14:53

文章预览

一、概述大语言模型（LLMs）在预训练的过程中通常会捕捉数据的特征，而这些训练数据通常既包含高质量的也包含低质量的，因此模型有时会产生不被期望的行为，如编造事实，生成有偏见或有毒的文本，甚至对人类有害的内容。因此，将LLMs与人类价值观（如helpful, honest, 和harmless, 即3H）对齐是非常重要的，目前采用的主流的技术即是基于人类反馈的强化学习技术（RLHF）。通常来说，RLHF包括三个步骤： ①supervised fine-tuning (SFT)：对LLMs进行微调，LLMs通过模仿人类标注的对话示例来学习通用的的类似人类的对话。 ②reward model (RM) training：对于模型对同一个prompt的多个回复，利用人类标注来进行排序以获取人类偏好，然后单独使用另一个语言模型作为reward model，在这个reward model上使用标注的数据进行训练（类似排序任务）。 ③proximal policy optimization ( ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

电商报Pro · 直播电商有妖风，董宇辉、小杨哥已经接连翻车

2 天前

蛋先生工作室 · 9月30日生猪、玉米，豆粕行情

6 天前

物流沙龙 · 淘宝将接入京东物流，京东将接入菜鸟；淘宝将投10亿元把香港变成包邮区；京东集团员工目前已增至62万人等

1 周前

老子道德经 · “善恶看眼，穷富看嘴”：老祖宗的识人术，太准了!

1 月前

科工力量 · 滞留3个多月后，波音“星际客机”发出异响

1 月前