专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

告别随机采样!PRS:一种简单高效的数据采样新方法

AINLP  · 公众号  ·  · 2024-11-08 17:28
    

文章预览

Hai Ye, et al. “ Preference-Guided Reflective Sampling for Aligning Language Models ” -- EMNLP2024 论文:https://arxiv.org/pdf/2408.12163 项目:https://data-sampling-prs.github.io 代码:https://github.com/nusnlp/PRS 1. 前言 大型语言模型(LLMs)在后训练阶段需要与人类偏好进行对齐,而在这一对齐和优化过程中,采样方法尤为关键,特别是在数据生成和模型再训练的迭代阶段。传统的随机采样方法尽管广泛应用,但在探索效率和生成质量上存在明显局限。因此,研究人员提出了一种更高效的采样方法,称为 偏好引导反思采样(Preference-Guided Reflective Sampling, PRS 。 与随机采样不同,PRS 采用树状生成框架,并结合自我改进技术,从而显著提升采样效率。此外,PRS 允许用户通过自然语言表达偏好,从而优化模型生成的内容,更好地满足多样化的需求。实验结果表明,与传统的随机采样方法相 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览