一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

OpenAI o1背后的技术:LLM的快思考与慢思考路线之MCTS

深度学习自然语言处理  · 公众号  ·  · 2024-09-15 21:22

文章预览

知乎:皓天  链接:https://zhuanlan.zhihu.com/p/659230417 在上一篇文章[1]中,我们初步探索了基于EBM-MCTS的方法,并在多个数学数据集上完成实验验证。相比使用更多的SFT语料等方法,EBM-MCTS能够极大提升已有的SFT模型的数学能力[1][7]。而且,EBM不依赖更强的LLM、不需要LLM自己提出问题并评估中间步骤答案的好坏等。能量函数还能通过无监督方法训练(也不需要更大的尺寸即可提升SFT模型的效果)。近期,笔者看到了更多类似的文章,大部分在ai-agent的task-planning中探索。我们将基于这些文章,进一步探讨这些方法的'first-principle'以及未来的方向。 MCTS Monte-Carlo-Tree-Search[2] 主要用于解决复杂序列决策问题,基于policy-model和evaluation-function,找到reward最大的决策序列。evaluation-function评估基于policy-model生成的partial sequences,实现更好的exploitation和exploration的平衡。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览