专栏名称: 清熙

清晰、客观、理性探讨大模型（LLM）、人工智能（AI）、大数据（Big Data）、物联网（IoT）、云计算（Cloud）、供应链数字化等热点科技的原理、架构、实现与应用。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

OpenAI o1 如何学会三思而后行

清熙 · 公众号 · · 2024-09-13 19:30

文章预览

o1 效果惊艳社区 OpenAI o1 悄然上线却震撼整个社区：编程、奥数、理化跻身人类最强大脑水平，标志着大模型发展到了一个新纪元。 https://openai.com/index/learning-to-reason-with-llms/ 对于背后的技术，OpenAI 没有透露细节，只是一笔带过： o1的性能随着“强化学习”的增加而不断提高。 “类似于人在回答难题前会思考很长时间，o1在尝试解决问题时会使用思维链。通过强化学习，o1学会了磨练自己的思维链，并完善使用策略。它学会了认识和纠正自己的错误，把棘手的步骤分解成更简单的步骤，当前的方法不起作用时，尝试不同的方法”。这不就是古人教导我们的“三思而后行”吗？！无独有偶，7 月谷歌宣布推出的 AlphaProof，就是将LLM与强化学习结合起来解决数学难题的。AlphaPr ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博