专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

张俊林详细拆解o1：OpenAI o1完整训练过程逆向推演

极市平台 · 公众号 · 科技创业科技自媒体 · 2024-09-26 22:00

主要观点总结

本文是对OpenAI o1的技术原理进行的详细分析和逆向工程图解。作者通过对o1的各个方面，包括其重要意义、训练过程、模型结构、RL关键要素及其与LLM的融合方式等进行深入分析和推理，试图揭示o1背后的技术细节。文中推测o1可能采用的技术方案包括基于Transformer的LLM模型、结合MCST树搜索和RL的模型结构、以及可能使用的奖励模型等。同时，作者还探讨了o1在自我反思、错误修正、逻辑推理增强、模型扩展性等方面的价值和潜力。

关键观点总结

关键观点1: OpenAI o1的技术原理分析

本文详细分析了OpenAI o1的技术原理，包括其融合LLM和RL来生成Hidden COT的过程，以及可能使用的训练数据和奖励模型。

关键观点2: o1的重要意义

o1除了增强逻辑推理能力外，还为大模型带来了自我反思与错误修正能力，并可能推动大模型研发多个重要方向的革新。

关键观点3: o1的完整训练过程

o1的训练过程包括预训练、后训练（包括SFT、RM和PPO）和推理阶段，其中后训练阶段极大增强了逻辑推理能力。

关键观点4: o1的模型结构

o1可能由多个模型构成，包括主模型、摘要模型和与树搜索相关的模型池子，这些模型协同工作以实现o1的功能。

关键观点5: RL的关键要素及与LLM的融合

o1中RL的状态空间是连续的Token序列，行为空间可能是离散的“思考因子”，奖励模型可能同时采用ORM和PRM。

文章预览

↑ 点击蓝字关注极市平台来源丨机器之心极市导读新浪微博机器学习团队 AI Lab 负责人张俊林，对OpenAI o1原理进行了非常干货的逆向工程图解。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿知乎原贴：https://zhuanlan.zhihu.com/p/721952915 OpenAI o1的推出称为横空出世不为过，尽管关于Q*、草莓等各种传闻很久了，用了强化学习增强逻辑推理能力这个大方向大家猜的也八九不离十，但是融合LLM和RL来生成Hidden COT，估计很少人能想到这点，而且目前看效果确实挺好的。 OpenAI奔向Close的路上越走越远，你要从o1官宣字面来看，除了“强化学习生成Hidden COT”外，基本找不到其它有技术含量的内容。Sora好歹还给出了个粗略的技术框架图，字里行间也透漏不少隐含的技术点，细心点总能发现很多蛛丝马迹，串起来之后整个背后的技术就若隐若现（若对 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

法治日报 · 跟风炫耀“爆竹炸面粉”？危险又违法！｜AI热评

17 小时前

法治日报 · 跟风炫耀“爆竹炸面粉”？危险又违法！｜AI热评

17 小时前

工业水处理 · 【通知】2025年度科技成果评价受理工作开始啦（中国化工学会工业水处理专业委员会）

23 小时前

工业水处理 · 【通知】2025年度科技成果评价受理工作开始啦（中国化工学会工业水处理专业委员会）

23 小时前

掌上长春 · 白帝空天战机模型来了！就在长春这里

2 天前

掌上长春 · 白帝空天战机模型来了！就在长春这里

2 天前

FM1036福建新闻广播 · 支付宝宣布：你敢碰我敢赔

2 天前

FM1036福建新闻广播 · 支付宝宣布：你敢碰我敢赔

2 天前

八闽药闻 · 福建省市场监管局党组书记、局长黄水木开展生物医药产业发展和药品监管工作调研

2 天前

八闽药闻 · 福建省市场监管局党组书记、局长黄水木开展生物医药产业发展和药品监管工作调研

2 天前

TAGChengdu · 今晚｜.TAG Marathon国庆大礼 - D.DAN & Heling（All Night Long)

3 月前

山东高法 · 附随义务可诉性的争议与评析

3 月前

雷递 · 文远知行再获IPO备案：或募资超3亿美元宇通与启明是股东

3 月前

慧选牛牛 · 【纪要】中国人保(601319)中国财险2024年投资者开放日新能源车险专题20241111

2 月前