专栏名称: 架构师
架构师云集,三高架构(高可用、高性能、高稳定)、大数据、机器学习、Java架构、系统架构、大规模分布式架构、人工智能等的架构讨论交流,以及结合互联网技术的架构调整,大规模架构实战分享。欢迎有想法、乐于分享的架构师交流学习。
今天看啥  ›  专栏  ›  架构师

OpenAI o1如何炼成?原理逆向工程图解

架构师  · 公众号  ·  · 2024-09-26 22:28

文章预览

架构师(JiaGouX) 我们都是架构师! 架构未来,你来不来? “  OpenAI o1 出现后,大家都在研究它,这里给大家带来知乎@张俊林大佬的文章,这里是他对 o1 的理解。除了复杂逻辑推理能力获得极大增强,o1还有其它什么重要意义?o1的完整训练过程大致会是怎样的?o1是单个模型,还是多个模型?o1中的RL状态空间如何定义?行为空间如何定义?会用何种Reward Model?可能用何种训练数据?LLM和RM融合后的模型结构可能会是怎样的? ” ‍ 前言 OpenAI o1的推出称为横空出世不为过,尽管关于Q*、草莓等各种传闻很久了,用了强化学习增强逻辑推理能力这个大方向大家猜的也八九不离十,但是融合LLM和RL来生成Hidden COT,估计很少人能想到这点,而且目前看效果确实挺好的。 OpenAI奔向Close的路上越走越远,你要从o1官宣字面来看,除了“强化学习生成Hidden COT” ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览