专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

告别随机采样！PRS：一种简单高效的数据采样新方法

深度学习自然语言处理 · 公众号 · · 2024-11-05 23:03

文章预览

Hai Ye, et al. “ Preference-Guided Reflective Sampling for Aligning Language Models ” -- EMNLP2024 论文：https://arxiv.org/pdf/2408.12163 项目：https://data-sampling-prs.github.io 代码：https://github.com/nusnlp/PRS 1. 前言大型语言模型（LLMs）在后训练阶段需要与人类偏好进行对齐，而在这一对齐和优化过程中，采样方法尤为关键，特别是在数据生成和模型再训练的迭代阶段。传统的随机采样方法尽管广泛应用，但在探索效率和生成质量上存在明显局限。因此，研究人员提出了一种更高效的采样方法，称为偏好引导反思采样（Preference-Guided Reflective Sampling, PRS 。与随机采样不同，PRS 采用树状生成框架，并结合自我改进技术，从而显著提升采样效率。此外，PRS 允许用户通过自然语言表达偏好，从而优化模型生成的内容，更好地满足多样化的需求。实验结果表明，与传统的随机采样方法相 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中金点睛 · 中金2025年展望 | 通信设备：AI创新驱动增量投资

2 天前

中国金融四十人论坛 · 刘晓春：关于数字金融发展的七点建议

2 天前

雪球 · 【三大指数集体低开】沪指低开0.15%，深成指低开0.36%，创-20241121093406

3 天前

雪球 · 【收评：创业板指跌2.35%收3连阴全市场逾200股跌超9%】-20241118150744

5 天前

雪球 · 【竞价看龙头】市场焦点股大千生态（9板）竞价涨停，华为超充概念股-20241118093823

6 天前

财宝宝 · 鸥梅人买得起纺子吗？大城市买不起。昨天看了一个巴-20240922135336

2 月前