文章预览
知乎:啦啦啦啦 链接:https://zhuanlan.zhihu.com/p/872969444 LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning
https://arxiv.org/abs/2410.02884 这篇文章试图复现 O1,用的方法和 rStar 一样,都是 MCTS(蒙特卡洛树搜索),但不是 self-reward,而是训练的 reward。根据实验结果,效果非常强,甚至某个测试上超过了 O1: 图1 注解: @rm16 指的是 MCTS 搜到第 16 个答案就停止,然后用自己设计的 reward 选出 16 个答案里最好的一个。 @major8 指的是 MCTS 搜到第 8 个答案就停止,然后用多数投票(majority voting)选出最后答案。 图2 图3 图4 在图 2 里的 GPQA Diamond 一栏,作者的方法可以把正确率提升到 92.4%,而 O1 仅为 78.0%。但作者在论文中并没有提到这一点,不知道为什么。如果是我,我可能会直接把标题改为“ O1 is dead ”,哈哈。(评论区有兄弟认为这个 rm@k 实际上
………………………………