文章预览
知乎:啦啦啦啦(已授权) 链接:https://zhuanlan.zhihu.com/p/902522340 论文:O1 Replication Journey: A Strategic Progress Report 链接:https://github.com/GAIR-NLP/O1-Journey 这篇论文记录了一次o1复现尝试,用的方法是自己提出的Journey Training。在此之前,先看作者给出的最终结果: SFT-phase2-journeyLearining 比一般的SFT(即SFT-phase2-shortcutLearning)性能高8%左右。 SFT-Journey Training 基本做法 先用模型M对327个已知答案的样本进行极长COT思维链的构造。构造过程就是运用常规的树搜索,树分岔的方式是按推理步骤分叉。搜到一些正确路径,例如 question->step0->step1->....->step6->right_answer (这类样本叫shotcut) 还有错误路径,例如 question->step0'->step1'->....->step6'->wrong_answer 极长思维链等于 "question->step0'->step1'->....->step6'->wrong_answer"+ "emmm, 好像不太对,我想一下" + "step0->step1->....->step6->right_answer" 构
………………………………