专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

《OpenAI o1大模型》中英文技术报告,44页pdf

专知  · 公众号  ·  · 2024-09-16 12:00

文章预览

北京时间 9 月 13 日午夜,OpenAI 发布 o1 系列模型,旨在专门解决难题。OpenAI o1 在数学、 代码、长程规划等问题上取得了显著提升,而背后的成功最重要离不开后训练阶段 (Post-Training Stage) 中强化学习训练和推理阶段思考计算量的增大。新的扩展律 —— 后训练扩展律(Post-Training Scaling Laws) 已经出现,并可能引发社区对于算力分配、后训练能力的重新思考。 技术原理: 大规模强化学习算法 OpenAI 使用了一种大规模的强化学习算法,来训练 o1-preview 模型。该算法通过高效的数据训练,让模型学会如何利用“思维链”(Chain of Thought)来生产性地思考问题。模型在训练过程中会通过强化学习不断优化其思维链,最终提升解决问题的能力。 OpenAI 发现,o1 模型的性能会随着强化学习时间(训练时计算量)和推理时间(测试时计算量)的增加而显著提高。这 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览