一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

LLAMA-BERRY:o1的一次复现尝试,对比奖励引导self-refine的飞越

深度学习自然语言处理  · 公众号  ·  · 2024-10-11 18:44

主要观点总结

文章介绍了复现O1水平数学推理能力的新方法,使用基于MCTS的LLaMA-Berry模型进行配对优化。该模型通过特定的搜索和奖励机制来优化答案选择,并在实验中表现出超越O1的效果。文章还详细描述了模型的关键步骤,包括搜索时的分岔方式、奖励设计以及如何使用PPRM模型。

关键观点总结

关键观点1: 模型背景与目的

文章旨在复现O1水平的数学推理能力,使用与rStar相似但非self-reward的MCTS方法。

关键观点2: 模型方法与特点

LLaMA-Berry模型基于MCTS进行配对优化,通过搜索时的分岔方式、特定的奖励设计以及PPRM模型的使用来优化答案选择。

关键观点3: 实验结果与对比

模型在实验中表现出强大的效果,某些测试上甚至超越了O1。例如,在图2中的GPQA Diamond一栏,模型将正确率提升至92.4%,而O1的正确率为78.0%。

关键观点4: 模型的关键步骤

文章详细描述了模型的关键步骤,包括搜索时的分岔方式、奖励设计、PPRM模型的使用及个人看法。


文章预览

知乎:啦啦啦啦 链接:https://zhuanlan.zhihu.com/p/872969444 LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning https://arxiv.org/abs/2410.02884 这篇文章试图复现 O1,用的方法和 rStar 一样,都是 MCTS(蒙特卡洛树搜索),但不是 self-reward,而是训练的 reward。根据实验结果,效果非常强,甚至某个测试上超过了 O1: 图1 注解: @rm16 指的是 MCTS 搜到第 16 个答案就停止,然后用自己设计的 reward 选出 16 个答案里最好的一个。 @major8 指的是 MCTS 搜到第 8 个答案就停止,然后用多数投票(majority voting)选出最后答案。 图2 图3 图4 在图 2 里的 GPQA Diamond 一栏,作者的方法可以把正确率提升到 92.4%,而 O1 仅为 78.0%。但作者在论文中并没有提到这一点,不知道为什么。如果是我,我可能会直接把标题改为“ O1 is dead ”,哈哈。(评论区有兄弟认为这个 rm@k 实际上 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览