一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

告别随机采样!PRS:一种简单高效的数据采样新方法

深度学习自然语言处理  · 公众号  ·  · 2024-11-05 23:03

文章预览

Hai Ye, et al. “ Preference-Guided Reflective Sampling for Aligning Language Models ” -- EMNLP2024 论文:https://arxiv.org/pdf/2408.12163 项目:https://data-sampling-prs.github.io 代码:https://github.com/nusnlp/PRS 1. 前言 大型语言模型(LLMs)在后训练阶段需要与人类偏好进行对齐,而在这一对齐和优化过程中,采样方法尤为关键,特别是在数据生成和模型再训练的迭代阶段。传统的随机采样方法尽管广泛应用,但在探索效率和生成质量上存在明显局限。因此,研究人员提出了一种更高效的采样方法,称为 偏好引导反思采样(Preference-Guided Reflective Sampling, PRS 。 与随机采样不同,PRS 采用树状生成框架,并结合自我改进技术,从而显著提升采样效率。此外,PRS 允许用户通过自然语言表达偏好,从而优化模型生成的内容,更好地满足多样化的需求。实验结果表明,与传统的随机采样方法相 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览