专栏名称: 清熙
清晰、客观、理性探讨大模型(LLM)、人工智能(AI)、大数据(Big Data)、物联网(IoT)、云计算(Cloud)、供应链数字化等热点科技的原理、架构、实现与应用。
今天看啥  ›  专栏  ›  清熙

OpenAI o1 如何学会三思而后行

清熙  · 公众号  ·  · 2024-09-13 19:30

文章预览

o1 效果惊艳社区 OpenAI o1 悄然上线却震撼整个社区: 编程、奥数、理化跻身人类最强大脑水平,标志着大模型发展到了一个新纪元。 https://openai.com/index/learning-to-reason-with-llms/                             对于背后的技术,OpenAI 没有透露细节,只是一笔带过: o1的性能随着“强化学习”的增加而不断提高 。             “类似于人在回答难题前会思考很长时间,o1在尝试解决问题时会使用思维链。通过强化学习,o1学会了磨练自己的思维链,并完善使用策略。它学会了认识和纠正自己的错误,把棘手的步骤分解成更简单的步骤,当前的方法不起作用时,尝试不同的方法”。             这不就是古人教导我们的“三思而后行”吗?!             无独有偶,7 月谷歌宣布推出的 AlphaProof,就是将LLM与强化学习结合起来解决数学难题的。AlphaPr ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览