专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
今天看啥  ›  专栏  ›  学术头条

清华、智谱团队:探索 RLHF 的 scaling laws

学术头条  · 公众号  ·  · 2024-12-24 08:11
    

文章预览

基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求,提升生成质量。 然而, 目前关于 RLHF 的 scaling(扩展)潜力研究仍然相对缺乏 ,尤其是在模型大小、数据组成和推理预算等关键因素上的影响尚未被系统性探索。 针对这一问题, 来自清华大学与智谱的研究团队对 RLHF 在 LLM 中的 scaling 性能进行了全面研究,并提出了优化策略 。 论文链接:https://arxiv.org/abs/2412.06000 主要结论如下: 数据的多样性和规模 :增加训练数据的多样性和数量能够显著提升奖励模型(RM)的性能; 策略训练的效率 :初期增加响应样本能够提高策略训练效果,但收益会迅速趋于平稳; RLHF 的 scaling 效率低于预训练 :RLHF 的计算资源投入带来的回报递减,整体 scaling 效率低于模型预训练阶段。 这一研究为优化 RLHF 在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览