今天看啥  ›  专栏  ›  江大白

OpenAI o1详细拆解,完整训练过程逆向推演

江大白  · 公众号  ·  · 2024-09-27 08:00

文章预览

以下 文 章来源于微信公众号:夕小瑶科技说 作者: 夕小瑶科技说 链接:https://mp.weixin.qq.com/s/2rK59hPV8C_PeDsT8Ii73w 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 新浪微博机器学习团队 AI Lab 负责人张俊林,对OpenAI o1原理进行了非常干货的逆向工程图解。本文对此进行了详细总结归纳,希望对大家有所帮助。 OpenAI o1的推出称为横空出世不为过,尽管关于Q*、草莓等各种传闻很久了,用了强化学习增强逻辑推理能力这个大方向大家猜的也八九不离十,但是融合LLM和RL来生成Hidden COT,估计很少人能想到这点,而且目前看效果确实挺好的。 OpenAI奔向Close的路上越走越远,你要从o1官宣字面来看,除了“强化学习生成Hidden COT”外,基本找不到其它有技术含量的内容。Sora好歹还给出了个粗略的技术框架图,字里行间也透漏不少隐含的技术点, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览