首个o1复现开源RL框架OpenR来了，UCL、上交等高校联合团队发布

大模型智能 · 公众号 · AI 科技自媒体 · 2024-10-21 00:00

主要观点总结

本文介绍了OpenR项目，这是一个集过程奖励模型（PRM）训练、强化学习、多种搜索框架为一体的类o1开源框架，旨在增强大型语言模型（LLM）的复杂推理能力。文章详细阐述了OpenR的设计、实现和实验验证，包括PRM的训练和监督训练、LLM的策略学习、在线强化学习训练、解码阶段的Scaling Law等。

关键观点总结

关键观点1: OpenR项目介绍

OpenR是首个集过程奖励模型（PRM）训练、强化学习、多种搜索框架为一体的类o1开源框架，旨在增强大型语言模型（LLM）的复杂推理能力。

关键观点2: PRM的训练和监督训练

PRM的目的是判断解决方案的步骤是否在正确的轨道上，通过监督训练来提高LLM的推理能力。

关键观点3: LLM的策略学习

将数学问题转换为一个语言增强的决策过程，用来逐步解决问题。这个过程称为马尔可夫决策过程（MDP），由状态、动作和奖励组成。

关键观点4: 在线强化学习训练

使用强化学习训练大型语言模型（LLM）时，通常采用近端策略优化（PPO）来使生成的语言输出与预期的动作对齐。

关键观点5: 解码阶段的Scaling Law

文章介绍了在解码阶段的Scaling Law，即随着生成预算的增加，不同的解码方法如束搜索和投票方法的性能变化。

关键观点6: OpenR的技术实现和文档

OpenR提供了详细的代码文档供大家参考，支持多种算法的实现，如PRM的训练、强化学习训练，以及不同的解码方法等。

文章预览

大模型智能｜分享来源 | 机器之心 OpenR 研究团队成员包括：汪军教授，伦敦大学学院（UCL）计算机系教授，阿兰・图灵研究所 Turing Fellow，其指导的 UCL 一年级博士生宋研。利物浦大学助理教授方蒙。上海交通大学 Apex 和多智能体实验室张伟楠教授（上海交通大学计算机系教授、博士生导师、副系主任），温颖副教授（上海交通大学约翰・霍普克罗夫特计算机科学中心副教授）以及其指导的博士生万梓煜、温睦宁、朱家琛。张伟楠教授和温颖副教授博士期间就读于 UCL，指导教师为汪军教授。香港科技大学（广州）创校校长，倪明选（Lionel M. Ni），香港工程科学院院士，香港科技大学（广州）讲席教授。陈雷，香港科技大学（广州）信息枢纽院长，讲席教授。香港科技大学（广州）一年级博士生刘安杰、龚子钦受汪军教授和杨林易博士联合执导 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博