一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

RMB: 这是一个Reward Model Benchmark

深度学习自然语言处理  · 公众号  ·  · 2024-10-21 23:44

文章预览

来自:FudanNLP   我们提出了一个全面、细粒度的奖励模型评估基准,涵盖了超过 49 个现实世界场景,包含了超过三千条现实世界的用户问题。在pairwise 比较之外,我们还提出了 Best-of-N 的新基准评估范式。我们证明了我们的基准测试与奖励模型下游对齐任务表现之间的正相关性,并对目前SoTA 的奖励模型进行广泛分析。 📖 论文: https://arxiv.org/abs/2410.09893 🎮 数据 & 代码:  https://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmark 我们的评估代码和数据集可在 GitHub 上获取。 点击 阅读原文 直接访问论文链接 1 特点总结(省流) 奖励模型引导大规模语言模型的对齐过程,使其朝着人类偏好的行为方向发展。评估奖励模型是更好对齐 LLMs 的关键。 然而,由于评估数据往往分布有限,以及当前评估奖励模型的方法与对齐目标之间并不对应,当前对奖励模型的评估可能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览