文章预览
3分钟的幕后人员采访,值得看一遍,我加了中英翻译的字幕 印象深刻的点: o1是一个推理模型,所以 在回答问题之前会推理的更多 。 所以什么是推理? 有些简单的问题,例如,如果你问意大利的首都是哪里,你知道答案是罗马,你真的不用想太多,但是如果你想知道,复杂的谜题或你想写真正好的商业计划书,你想写小说,你可能需要考虑一下,你想得越多越好。所以 推理的结果是转向的能力,思考时间转向更好的结果 。 我认为真正酷的是,研究是有一个顿悟的时刻,你们什么时候有那种顿悟的时刻?第一位: 产生连贯的思维链 另一位:当我们意识到如果用 RL 训练模型 来生成和完善自己的思维链,它能比人类为其编写思维场景做得更好时,我有了一个“啊哈时刻”。这表明我们可以通过这种方式真正 scale this(扩大规模),实现卓越的推
………………………………