山寨版 OpenAI o1 实验记录

NewBeeNLP · 公众号 · · 2024-10-09 11:05

文章预览

作者 | 季逸超 https://zhuanlan.zhihu.com/p/720575010 纠结了一下还是决定把中秋假期捣鼓的山寨版 o1 模型开源出来。受限于数据和算力，该模型还只是个玩具，离 OpenAI o1 差十万八千里。但实验的过程中有些记录值得分享出来抛砖引玉：起因是在测试 o1 时，种种迹象 (见下方附录) 表明它在 inference-time 似乎没有进行 MCTS 或外置的 agentic 的反思，更像是一个在 reasoning path 数据集上训练的 GPT-4o；大家重点讨论的 RL self-play 更多应该是在合成 reasoning path 数据时，而有了 synthetic datasets 之后，整个 post-training 和 inference 应该和传统模型相差不大；这让我想起 Nye, Maxwell, et al. 在 2021 年关于 "scratchpad tokens" 的工作，从某种意义上来说，o1 的 CoT 可能就是将 reasoning path 作为 scratchpad tokens 放在 output 之前，只是这些 reasoning tokens 长度非常长，质量非常高；既然如此， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

塔罗牌解忧馆 · 塔罗：你的另一半会对你隐瞒过去吗？

11 小时前

中国银行 · 央视新闻｜中国银行助力回购增持再贷款政策提速落地见效

昨天

进出口银行 · 合作·发展 | 16家境内外金融机构齐聚上海共话区域合作与全球经济一体化

昨天

互联网联合辟谣平台 · 当心！一些高考志愿填报服务有“套路”

5 月前

一周进步 · 不是特效！这个超酷炫的文字效果，我用PPT做出来了

3 月前

PCEC 可持续发展服务 · 技术贴 | 有关防爆设备金属外壳喷塑涂层厚度的要求

2 月前