InstructGPT：语言模型的人类反馈指令对齐

酷酷的群 · 公众号 · · 2023-07-12 18:52

论文标题：Training language models to follow instructions with human feedback论文链接：https://arxiv.org/abs/2203.02155论文来源：OpenAI一、概述大型语言模型（Large language models，LLMs）可以通过被prompted来执行一系列NLP任务，这通常以给出一些任务相关的样本的方式来完成。然而LLMs经常会展现出一些非预期的行为。这些行为包括编造事实、生成有偏见或有毒的文本，或者简单地不按照用户的指令进行操作。这是因为很多最近的LLMs使用的语言建模目标（预测来自互联网网页的下一个token）与“有帮助且安全地按照用户的指令行事”的目标是不同的。因此，我们可以说语言建模目标是未对齐的（misaligned）的。避免这些非预期行为对于那些部署并用于数百种应用的语言模型来说尤其重要。我们通过训练这些语言模型以便它们能根据用户的意图进行行动，以此来对语言模型进 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博