张俊林拆解o1：OpenAI o1原理逆向工程图解

Founder Park · 公众号 · AI 科技媒体 · 2024-09-25 20:30

主要观点总结

文章深入探讨了OpenAI o1的原理，包括其技术突破、训练过程、模型结构以及可能的未来发展方向。o1通过融合LLM（语言模型）和RL（强化学习）来生成Hidden COT，这在大模型技术领域是一个巨大的突破。o1不仅增强了模型的逻辑推理能力，还赋予了模型自我反思和错误修正的能力，为AI的发展打开了新的道路。文章还推测了o1可能的训练过程，包括预训练、后训练阶段，并介绍了o1在推理阶段的“先思考再发言”的特点。此外，文章还讨论了o1可能采用的训练数据，如人工标注数据、合成数据以及代码和数学COT的反向生成。最后，文章提出了将RL与LLM融合后的Reverse-o1模型网络结构，并介绍了基于MCST树搜索的o1模型运作方式。

关键观点总结

关键观点1: o1的技术突破

o1通过融合LLM和RL来生成Hidden COT，增强了模型的逻辑推理能力，并赋予了模型自我反思和错误修正的能力。

关键观点2: o1的训练过程

o1的训练过程可能包括预训练、后训练阶段，其中后训练阶段可能包括增强模型指令遵循能力的环节，并极大增强逻辑推理类的指令遵循数据比例。

关键观点3: o1的推理阶段

o1在推理阶段展现出“先思考再发言”的特点，分为思考、COT摘要和输出答案三个阶段。

关键观点4: o1的训练数据

o1可能采用人工标注数据、合成数据以及代码和数学COT的反向生成作为训练数据。

关键观点5: Reverse-o1模型网络结构

Reverse-o1模型结合了LLM和RL，主体是LLM模型，通过RL模型结构来调整模型参数，逐步学会内部思考过程。

关键观点6: MCST树搜索下的o1

o1可能使用基于MCST树搜索的方法来寻找最优的“思考因子”和对应的Hidden COT tokens序列，并通过奖励模型来调整模型参数。

文章预览

新浪微博机器学习团队 AI Lab 负责人张俊林，针对OpenAI o1原理进行逆向工程图解。原贴：https://zhuanlan.zhihu.com/p/721952915 OpenAI o1的推出称为横空出世不为过，尽管关于Q*、草莓等各种传闻很久了，用了强化学习增强逻辑推理能力这个大方向大家猜的也八九不离十，但是融合LLM和RL来生成Hidden COT，估计很少人能想到这点，而且目前看效果确实挺好的。 OpenAI奔向Close的路上越走越远，你要从o1官宣字面来看，除了“强化学习生成Hidden COT”外，基本找不到其它有技术含量的内容。Sora好歹还给出了个粗略的技术框架图，字里行间也透漏不少隐含的技术点，细心点总能发现很多蛛丝马迹，串起来之后整个背后的技术就若隐若现。而且，尽管目前有不少公开文献在用LLM+RL增强大模型的推理能力，但几乎找不到做Hidden COT生成的工作，所以可供直接参考的内容非常 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博