周枫：o1是大模型发展的里程碑时刻，打开了逻辑性思维大门的一条缝隙

多知 · 公众号 · · 2024-09-16 10:42

文章预览

背景大家应该都了解，OpenAI o1-preview上周推出，达到了数理推理（reasoning）的全新水平，比如数学奥林匹克IMO美国资格赛AIME达到了前500水平，CodeForces编程竞赛社区89%排名，等等。以下是我这两天关于o1-preview的一些笔记，和大家分享。 1. 思维链 OpenAI在o1-preview的介绍文章"Learning to Reason with LLMs"中说（我译成中文）： “我们的大规模强化学习算法教会模型如何在高数据效率的训练过程中有效地使用其思维链（chain of thought）进行思考。我们发现，随着更多的强化学习（训练时间计算）和更多的思考时间（测试时间计算），o1的性能不断提高。扩展这种方法的限制与LLM预训练的限制有很大的不同，我们正在继续研究它们。” 思维链（CoT）本身是行业熟悉的成熟方法了，来自2022年的"Large Language Models are Zero-Shot Reasoners"这篇文章，意思就是通过加入“让我们 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博