山寨版 OpenAI o1 实验记录

大模型智能 · 公众号 · · 2024-09-27 00:00

文章预览

大模型智能｜分享来源 | 季逸超纠结了一下还是决定把中秋假期捣鼓的山寨版 o1 模型开源出来。受限于数据和算力，该模型还只是个玩具，离 OpenAI o1 差十万八千里。但实验的过程中有些记录值得分享出来抛砖引玉：起因是在测试 o1 时，种种迹象 (见下方附录) 表明它在 inference-time 似乎没有进行 MCTS 或外置的 agentic 的反思，更像是一个在 reasoning path 数据集上训练的 GPT-4o；大家重点讨论的 RL self-play 更多应该是在合成 reasoning path 数据时，而有了 synthetic datasets 之后，整个 post-training 和 inference 应该和传统模型相差不大；这让我想起 Nye, Maxwell, et al. 在 2021 年关于 "scratchpad tokens" 的工作，从某种意义上来说，o1 的 CoT 可能就是将 reasoning path 作为 scratchpad tokens 放在 output 之前，只是这些 reasoning tokens 长度非常长，质量非常高；既然如此，我们不妨尝试 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

有限次重复博弈 · 活动活动肩膀，睡觉有限次重复博弈的微博视频 -20241121215633

16 小时前

第一财经 · 超4200只个股上涨！华为手机概念，大涨！

3 天前

第一财经 · 莫慌！今日情绪指数速看

3 天前

第一财经 · 有人年薪70万！养猪这么赚钱？起底高薪之谜→

5 天前

火星宏观 · 如何理解十月消费额的复苏与进口、信贷、物价的持续下行？

6 天前

HRTechChina · 【重磅】2024 数字人力资源科技奖(DigitalHRTech Awards) 评选正式启动--被誉为HR科技领域关键奖项！

2 月前

极客公园 · 华为三折叠手机「黄牛价」雪崩；OpenAI「Her」语音模式推出；日本政府推 AI 相亲系统 | 极客早知道

1 月前