o3压轴登场，下一步是领域泛化！北交大桑基韬团队发布首个强化微调的技术报告并开源代码：仅用100个样本，领域推理能力提升11%

专知 · 公众号 · AI 科技自媒体 · 2024-12-22 09:31

主要观点总结

本文主要介绍了OpenAI的12天发布会中关于大模型推理的内容，以及强化微调技术的意义和实现方法。文章还介绍了北京交通大学桑基韬教授团队在此基础上的研究成果，包括OpenRFT技术报告的内容以及科学问答领域任务实验的结果。最后，文章从系统1和系统2的角度总结了与强化微调相关的研究方向，并给出了后续改进的两个方向。

关键观点总结

关键观点1: OpenAI发布会内容

大模型推理是重点，强化微调技术为领域任务提供新思路。

关键观点2: 强化微调技术的意义

打开了对推理基础模型的想象，提供了一种新的微调范式，有望实现像人一样举一反三的能力。

关键观点3: OpenRFT的研究成果

通过强化学习和树搜索等技术，在部分任务性能提升超过25%，甚至超过了o1-mini。代码和模型已开源。

关键观点4: 关于强化微调的研究方向

包括基于系统1模型获得系统2能力、对基础模型的微调、基于强化学习的微调等。挑战在于任务不一致和行为模式不一致。

关键观点5: 后续改进方向

领域数据合成和领域知识嵌入是进一步提升强化微调性能的关键。

文章预览

OpenAI的12天发布会结束，其中4天是大模型推理 (第一天、第二天、第九天、第十二天)。从技术角度看，12天中，开头给人期待，结尾有惊喜。一头一尾对应了两代推理模型，但仍然聚焦在数学和编程两个任务上。第二天发布的强化微调技术则让人看到了大模型推理泛化应用到更多领域的可能：只需要提供几十到几千个领域训练样本，就可以获得一个专注于这个领域的推理模型。强化微调的意义包括：(1) 打开了对推理基础模型的想象。从最近几个月的单纯提升推理能力，到思考基于推理基础模型如何做领域泛化。（2）提供了一种新的对基础模型微调的范式。不同于SFT的机械模仿，RFT可以基于推理能力来思考和试错，有望实现像人一样举一反三的能力。字节此前提出的ReFT方法需要基于大量有推理过程的训练数据，而且定位和RFT也不同： ReFT旨在从 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

o3压轴登场，下一步是领域泛化！ 北交大桑基韬团队发布首个强化微调的技术报告并开源代码：仅用100个样本，领域推理能力提升11%