文章预览
Hai Ye, et al. “ Preference-Guided Reflective Sampling for Aligning Language Models ” -- EMNLP2024 论文:https://arxiv.org/pdf/2408.12163 项目:https://data-sampling-prs.github.io 代码:https://github.com/nusnlp/PRS 1. 前言 大型语言模型(LLMs)在后训练阶段需要与人类偏好进行对齐,而在这一对齐和优化过程中,采样方法尤为关键,特别是在数据生成和模型再训练的迭代阶段。传统的随机采样方法尽管广泛应用,但在探索效率和生成质量上存在明显局限。因此,研究人员提出了一种更高效的采样方法,称为 偏好引导反思采样(Preference-Guided Reflective Sampling, PRS 。 与随机采样不同,PRS 采用树状生成框架,并结合自我改进技术,从而显著提升采样效率。此外,PRS 允许用户通过自然语言表达偏好,从而优化模型生成的内容,更好地满足多样化的需求。实验结果表明,与传统的随机采样方法相
………………………………