一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

LLAMA-BERRY:o1的一次复现尝试,对比奖励引导self-refine的飞越

深度学习自然语言处理  · 公众号  ·  · 2024-10-11 18:44

文章预览

知乎:啦啦啦啦 链接:https://zhuanlan.zhihu.com/p/872969444 LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning https://arxiv.org/abs/2410.02884 这篇文章试图复现 O1,用的方法和 rStar 一样,都是 MCTS(蒙特卡洛树搜索),但不是 self-reward,而是训练的 reward。根据实验结果,效果非常强,甚至某个测试上超过了 O1: 图1 注解: @rm16 指的是 MCTS 搜到第 16 个答案就停止,然后用自己设计的 reward 选出 16 个答案里最好的一个。 @major8 指的是 MCTS 搜到第 8 个答案就停止,然后用多数投票(majority voting)选出最后答案。 图2 图3 图4 在图 2 里的 GPQA Diamond 一栏,作者的方法可以把正确率提升到 92.4%,而 O1 仅为 78.0%。但作者在论文中并没有提到这一点,不知道为什么。如果是我,我可能会直接把标题改为“ O1 is dead ”,哈哈。(评论区有兄弟认为这个 rm@k 实际上 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览