专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

新智元  · 公众号  · AI  · 2024-11-01 13:25

文章预览

   新智元报道   编辑:LRST 【新智元导读】 CGPO框架通过混合评审机制和约束优化器,有效解决了RLHF在多任务学习中的奖励欺骗和多目标优化问题,显著提升了语言模型在多任务环境中的表现。CGPO的设计为未来多任务学习提供了新的优化路径,有望进一步提升大型语言模型的效能和稳定性。 近年来,随着大规模语言模型(LLMs)的发展,特别是通用大模型的应用场景愈发广泛,RLHF逐渐成为调整和优化语言模型输出的主流方法。 尽管RLHF在处理复杂任务时表现出色,但其在多任务学习(MTL)中的表现却受限于「奖励欺骗」以及多目标优化中的矛盾问题。 传统的RLHF方法依赖于线性组合的奖励模型,不仅需要人工调参,且容易导致模型被某一任务的奖励优化「误导」。 最近Meta GenAI和FAIR团队提出了一个全新的后训练范式——Constrained Generative Policy Optim ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览