文章预览
知乎:皓天 链接:https://zhuanlan.zhihu.com/p/659230417 在上一篇文章[1]中,我们初步探索了基于EBM-MCTS的方法,并在多个数学数据集上完成实验验证。相比使用更多的SFT语料等方法,EBM-MCTS能够极大提升已有的SFT模型的数学能力[1][7]。而且,EBM不依赖更强的LLM、不需要LLM自己提出问题并评估中间步骤答案的好坏等。能量函数还能通过无监督方法训练(也不需要更大的尺寸即可提升SFT模型的效果)。近期,笔者看到了更多类似的文章,大部分在ai-agent的task-planning中探索。我们将基于这些文章,进一步探讨这些方法的'first-principle'以及未来的方向。 MCTS Monte-Carlo-Tree-Search[2] 主要用于解决复杂序列决策问题,基于policy-model和evaluation-function,找到reward最大的决策序列。evaluation-function评估基于policy-model生成的partial sequences,实现更好的exploitation和exploration的平衡。
………………………………