专栏名称: AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
今天看啥  ›  专栏  ›  AI算法与图像处理

清华、智谱团队:探索 RLHF 的 scaling laws

AI算法与图像处理  · 公众号  ·  · 2024-12-26 21:18
    

文章预览

基于人类反馈的强化学习(RLHF)是优化大语言模型(LLM)行为的关键技术,能够让模型更符合人类偏好和需求,提升生成质量。 然而, 目前关于 RLHF 的 scaling(扩展)潜力研究仍然相对缺乏 ,尤其是在模型大小、数据组成和推理预算等关键因素上的影响尚未被系统性探索。 针对这一问题, 来自清华大学与智谱的研究团队对 RLHF 在 LLM 中的 scaling 性能进行了全面研究,并提出了优化策略 。 论文链接:https://arxiv.org/abs/2412.06000 主要结论如下: 数据的多样性和规模 :增加训练数据的多样性和数量能够显著提升奖励模型(RM)的性能; 策略训练的效率 :初期增加响应样本能够提高策略训练效果,但收益会迅速趋于平稳; RLHF 的 scaling 效率低于预训练 :RLHF 的计算资源投入带来的回报递减,整体 scaling 效率低于模型预训练阶段。 这一研究为优化 RLHF 在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览