专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

北交大团队开源代码生成框架o1-Coder,并将推出强化微调RFT版本

专知  · 公众号  ·  · 2024-12-11 11:00
    

文章预览

北京交通大学ADaM团队两周前在arxiv上传了类o1的代码生成框架o1-Coder的技术报告,马上在外网获得了关注。Hugging Face对论文进行了推荐,成为了当天 #2 Paper of the day 。  X上也有人对论文进行了分享,2天时间内获得了7万多的阅读量。足见业界对推理大模型这个方向的关注度。 网友表达了对o1-Coder先生成伪代码再生成完整代码的兴趣。 团队昨天在Github开源了o1-Coder项目的代码,包括 过程奖励模型训练代码、用于获得结果奖励的测试用例生成器训练代码、合成推理过程数据的蒙特卡洛树搜索代码 等。 项目链接:https://github.com/ADaM-BJTU/O1-CODER 值得注意的是,项目主页上 将强化微调RFT (Reinforcement Fine-Tuning)的实现作为待更新的计划 。相比o1展示的强化微调RFT, 字节提出的ReFT需要CoT数据进行监督微调预热,而且在强化阶段没有充分利用过程奖励 。o1-Coder框架 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览