文章预览
24年6月来自谷歌DeepMind的论文“Improve Mathematical Reasoning in Language Models by Automated Process Supervision”。 先进的大语言模型 (LLM) 来说仍然是一个重大障碍。使用 结果奖励模型 (ORM) 验证 LLM 输出是一种标准的推理-时间技术,旨在提高 LLM 的推理性能。然而,对于具有较长或多步推理链的推理任务,这仍然不够,因为中间结果既没有得到适当的奖励也没有受到惩罚。过程监督在推理过程中分配中间奖励来解决这一限制。到目前为止,用于收集过程监督数据的方法依赖于人工标注或每步的蒙特卡洛估计,这两种方法的规模化成本都过高,从而阻碍了这种技术的广泛应用。为了应对这一挑战,OmegaPRM 是一个分而治之式蒙特卡洛树搜索 (MCTS) 算法,用于高效收集高质量的过程监督数据。该算法通过二分搜索快速识别思维链 (CoT) 中的第一个错误,并平衡正反例,从
………………………………