一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

Journey Training:o1的一次复现尝试,极长思维链的合成

深度学习自然语言处理  · 公众号  ·  · 2024-10-12 21:51
    

文章预览

知乎:啦啦啦啦(已授权) 链接:https://zhuanlan.zhihu.com/p/902522340 论文:O1 Replication Journey: A Strategic Progress Report 链接:https://github.com/GAIR-NLP/O1-Journey 这篇论文记录了一次o1复现尝试,用的方法是自己提出的Journey Training。在此之前,先看作者给出的最终结果: SFT-phase2-journeyLearining 比一般的SFT(即SFT-phase2-shortcutLearning)性能高8%左右。 SFT-Journey Training 基本做法 先用模型M对327个已知答案的样本进行极长COT思维链的构造。构造过程就是运用常规的树搜索,树分岔的方式是按推理步骤分叉。搜到一些正确路径,例如 question->step0->step1->....->step6->right_answer (这类样本叫shotcut) 还有错误路径,例如 question->step0'->step1'->....->step6'->wrong_answer 极长思维链等于 "question->step0'->step1'->....->step6'->wrong_answer"+ "emmm, 好像不太对,我想一下" + "step0->step1->....->step6->right_answer" 构 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览