文章预览
o1 效果惊艳社区 OpenAI o1 悄然上线却震撼整个社区: 编程、奥数、理化跻身人类最强大脑水平,标志着大模型发展到了一个新纪元。 https://openai.com/index/learning-to-reason-with-llms/ 对于背后的技术,OpenAI 没有透露细节,只是一笔带过: o1的性能随着“强化学习”的增加而不断提高 。 “类似于人在回答难题前会思考很长时间,o1在尝试解决问题时会使用思维链。通过强化学习,o1学会了磨练自己的思维链,并完善使用策略。它学会了认识和纠正自己的错误,把棘手的步骤分解成更简单的步骤,当前的方法不起作用时,尝试不同的方法”。 这不就是古人教导我们的“三思而后行”吗?! 无独有偶,7 月谷歌宣布推出的 AlphaProof,就是将LLM与强化学习结合起来解决数学难题的。AlphaPr
………………………………