文章预览
技术专栏 本篇将介绍 OpenAI o1 。 Learning to Reason with LLMs | OpenAI https://openai.com/index/learning-to-reason-with-llms/ OpenAI o1,这是一种新的大型语言模型,经过强化学习训练,可以执行复杂的推理。O1 在回答之前会思考 - 在响应用户之前,它可以产生一个很长的内部思维链。 OpenAI o1 在竞争性编程问题 (Codeforces) 中排名89百分位,在美国数学奥林匹克竞赛 (AIME) 资格赛中跻身美国前 500 名学生之列,在物理、生物和化学问题的基准 (GPQA) 上超过了人类博士水平的准确性。 OpenAI的大规模强化学习算法教会模型如何在高度数据高效的训练过程中使用其思维链进行高效思考。OpenAI发现,随着强化学习(训练时计算)的增加和思考时间的增加(测试时计算),o1 的性能会不断提高。扩展这种方法的限制与 LLM 预训练的限制有很大不同。 训练时计算和测试时计算增
………………………………